Subiecte populare
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

elvis
Construirea cu agenți AI @dair_ai • Prev: Meta AI, Galactica LLM, Elastic, PaperswithCode, PhD • Împărtășesc informații despre cum să construiesc cu LLM-uri și agenți ⬇️ AI
Cum aplicați ingineria de context eficientă pentru agenții AI?
Citiți acest articol dacă sunteți un dezvoltator AI care construiește agenți AI astăzi.
Contextul este rege! Și trebuie să fie proiectat, nu doar solicitat.
Am scris câteva note după ce am citit minunatul ghid de inginerie a contextului de la Anthropic:
Ingineria contextului vs. ingineria promptă
- Prompt Engineering = scrierea și organizarea instrucțiunilor
- Ingineria contextului = organizarea și întreținerea solicitărilor, instrumentelor, istoricului,
și date externe
- Ingineria contextului este iterativă, iar contextul este organizat în mod regulat
De ce contează ingineria contextului?
- Buget de atenție finit
- Putregaiul contextului apare dacă contextul devine prea mare; Ingineria contextului ajută
- Obiectiv: organizarea și menținerea tokenurilor minime cu semnal ridicat
Anatomia contextului eficient
- Solicitări de sistem: clar, altitudine corectă (nu prea specifică sau prea vagă)
- Instrumente: păstrați instrumentele minime, utilizați parametri descriptivi și urmăriți
eficiența tokenului
- Exemple de puține fotografii: oferă diverse exemple canonice de comportament dorit
- Istoricul mesajelor: tăiați agresiv
Strategii de recuperare a contextului
- Pre-recuperare vs just-in-time; Există o schimbare către căutarea agentică
- Utilizați ref-uri ușoare (căi de fișiere, interogări stocate) pentru a încărca dinamic
context în timpul execuției
- Permiteți descoperirea incrementală a contextului relevant prin explorare
- Strategie de căutare hibridă: preîncărcare + recuperare dinamic
Ingineria contextului pentru sarcini cu orizont lung
- Compactare: rezumați și resetați contextul pe măsură ce subsarcinile sunt finalizate
- Luarea de notițe structurate: utilizați memorie externă persistentă (jurnale, sarcini)
- Subagenți: coordonațile/planurile orchestratorului, iar subagenții îndeplinesc sarcini cu propriile ferestre de context care sunt apoi rezumate
Cred că acestea sunt bazele pentru construirea de conducte de context scalabile și fiabile pentru agenții AI. Dar există mult mai mult decât asta. Sunt sigur că vor apărea strategii mai eficiente pe măsură ce trece timpul.

48,25K
Cum antrenezi modele mici de raționament mai eficient?
Aceasta este o problemă cu care se confruntă mulți dezvoltatori AI. Reglarea fină a RL, în general, tinde să se stabilizeze, în special pentru modelele 1-2B.
Cred că DeepSearch oferă o abordare foarte curată aici. Preia ideea Monte Carlo Tree Search (MCTS) la inferență și o mută în bucla de antrenament. Această schimbare deblochează o explorare mai bună și o învățare mai eficientă.
Iată notele mele din lucrare:
Bucla implică patru idei cheie:
Căutarea în timpul antrenamentului: În loc să se facă căutare doar în timpul testului, MCTS este rulat în timpul antrenamentului RL. Un selector UCT local clasifică frații, în timp ce un scorer de frontieră globală alege frunze promițătoare în întregul copac în funcție de valoarea părintelui, entropie și profunzime.
Dacă nu se găsește o soluție corectă, modelul învață în continuare prin supravegherea căii greșite încrezătoare (cele mai mici greșeli de entropie). Căile corecte rămân nenegative în timpul actualizărilor, ceea ce ajută la atribuirea creditelor la nivel de trepte.
Stabilizarea RL cu Tree-GRPO: Acestea rafinează obiectivele în stil PPO cu valori q la nivel de nod, normalizare doar a mediei și o strategie de tăiere ușoară. Acest lucru evită exploziile de recompensă, păstrând în același timp gradientele informative.
Rămâneți eficienți: Pentru a reduce calculul irosit, DeepSearch filtrează la un subset dificil de probleme, memorează în cache soluțiile odată ce sunt verificate și sare peste căutarea completă atunci când un răspuns este deja cunoscut.
Toate aceste îmbunătățiri duc la rezultate puternice.
DeepSearch-1.5B atinge 62,95% pe benchmark-urile AIME/AMC, depășind o bază de top Nemotron, folosind doar ~330 de ore GPU. Prin comparație, platourile normale de antrenament RL scad chiar și cu 1.800+ ore GPU.
Hârtie:
Cred că această lucrare oferă o rețetă practică pentru a sparge platourile în LM-uri cu raționament mic:
• Mutați căutarea în antrenament, nu doar în inferență
• Supravegheați atât căile corecte, cât și cele greșite
• Utilizați prioritizarea globală pentru a explora mai inteligent
• Cache și filtru pentru a menține eficiența ridicată

26,87K
Bătălia cadrelor agenților continuă.
Microsoft tocmai a lansat Microsoft Agent Framework.
Utilizați-l pentru a construi, orchestra și implementa agenți AI cu suport atât pentru .NET, cât și pentru Python.
De asemenea, acceptă fluxuri de lucru cu mai mulți agenți cu orchestrare bazată pe grafice.

5,19K
Limită superioară
Clasament
Favorite