Populární témata
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

elvis
Budování s agenty AI @dair_ai • Předchozí: Meta AI, Galactica LLM, Elastic, PaperswithCode, PhD • Sdílím poznatky o tom, jak stavět s LLM a AI agenty ⬇️
Jak aplikujete efektivní kontextové inženýrství pro agenty AI?
Přečtěte si toto, pokud jste vývojář umělé inteligence, který dnes vytváří agenty AI.
Kontext je král! A musí být zkonstruována, ne jen vyzvána.
Po přečtení úžasného nového průvodce kontextovým inženýrstvím od Anthropic jsem si napsal několik poznámek:
Kontextové inženýrství vs. rychlé inženýrství
- Prompt Engineering = psaní a organizace instrukcí
- Kontextové inženýrství = kurátorství a údržba výzev, nástrojů, historie,
a externí data
- Kontextové inženýrství je iterativní a kontext je pravidelně kurátorován
Proč je kontextové inženýrství důležité?
- Omezený rozpočet na pozornost
- K hnilobě kontextu dochází, pokud se kontext stane příliš velkým; Kontextové inženýrství pomáhá
- Cíl: spravovat a udržovat minimální tokeny s vysokým signálem
Anatomie efektivního kontextu
- Systémové výzvy: jasná, správná výška (ne příliš konkrétní nebo příliš vágní)
- Nástroje: udržujte nástroje minimální, používejte popisné parametry a zaměřte se na
token-efektivita
- Příklady několika snímků: poskytněte různorodé, kanonické příklady požadovaného chování
- Historie zpráv: prořezávejte agresivně
Strategie získávání kontextu
- Předběžné načítání vs just-in-time; Dochází k posunu směrem k agentnímu vyhledávání
- Používejte odlehčené reference (cesty k souborům, uložené dotazy) k dynamickému načítání
kontext za běhu
- Umožněte přírůstkové zjišťování relevantního kontextu prostřednictvím průzkumu
- Hybridní strategie vyhledávání: dynamické předběžné načtení + načtení
Kontextové inženýrství pro úlohy s dlouhým horizontem
- Komprimace: shrnutí a resetování kontextu po dokončení dílčích úkolů
- Strukturované psaní poznámek: použití trvalé externí paměti (logy, úkoly)
- Dílčí agenti: koordinace/plány nástroje Orchestrator a dílčí agenti provádějí úlohy s vlastními kontextovými okny, která jsou poté shrnuta
Věřím, že toto jsou základy pro budování škálovatelných a spolehlivých kontextových kanálů pro agenty AI. Je toho však mnohem víc. Jsem si jistý, že postupem času se objeví účinnější strategie.

47,83K
Jak efektivněji trénovat modely uvažování malých lidí?
To je problém, na který naráží mnoho vývojářů umělé inteligence. Jemné doladění RL má obecně tendenci stagnovat, zejména u modelů 1–2B.
Myslím, že DeepSearch zde nabízí opravdu čistý přístup. Přebírá myšlenku Monte Carlo Tree Search (MCTS) na inferenci a posouvá ji do tréninkové smyčky. Tento posun odemyká lepší průzkum a efektivnější učení.
Zde jsou mé poznámky z novin:
Smyčka zahrnuje čtyři klíčové myšlenky:
Vyhledávání během tréninku: Namísto vyhledávání pouze v době testu se MCTS spouští během tréninku RL. Místní selektor UCT hodnotí sourozence, zatímco globální hraniční hodnotitel vybírá slibné listy napříč celým stromem na základě nadřazené hodnoty, entropie a hloubky.
Poučení z výher i sebevědomých chyb: Pokud není nalezeno správné řešení, model se stále učí tím, že dohlíží na sebevědomou špatnou cestu (chyby nejnižší entropie). Správné cesty zůstávají během aktualizací nezáporné, což pomáhá s přiřazením kreditů na úrovni kroků.
Stabilizace RL pomocí Tree-GRPO: Upřesňují cíle ve stylu PPO pomocí q-hodnot na úrovni uzlů, normalizace pouze na střední úrovni a strategie měkkého ořezávání. Tím se zabrání explozím odměn a zároveň zůstanou gradienty informativní.
Zachování efektivity: Aby se snížilo plýtvání výpočetními prostředky, filtruje DeepSearch tvrdou podmnožinu problémů, ukládá řešení do mezipaměti, jakmile jsou ověřena, a přeskočí úplné vyhledávání, když je již známa odpověď.
Všechna tato vylepšení vedou k dobrým výsledkům.
DeepSearch-1.5B dosahuje 62,95 % v benchmarcích AIME/AMC, čímž překonává špičkovou základní linii Nemotronu při využití pouhých ~330 hodin GPU. Pro srovnání, běžný trénink RL je nižší i při 1 800+ hodinách GPU.
Papír:
Myslím, že tento článek nabízí praktický recept na prolomení stagnací v malých LM uvažování:
• Přesuňte vyhledávání do školení, nejen odvozování
• Dohlížejte na správné i nesprávné cesty
• Využijte globální prioritizaci k chytřejšímu zkoumání
• Ukládání do mezipaměti a filtrování pro udržení vysoké efektivity

26,86K
Top
Hodnocení
Oblíbené