Populaire onderwerpen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

elvis
Bouwen met AI-agents @dair_ai • Vorige: Meta AI, Galactica LLM, Elastic, PaperswithCode, PhD • Ik deel inzichten over hoe te bouwen met LLM's en AI-agents ⬇️
Hoe pas je effectieve contextengineering toe voor AI-agenten?
Lees dit als je een AI-ontwikkelaar bent die vandaag AI-agenten bouwt.
Context is koning! En het moet worden ontworpen, niet alleen geprompt.
Ik heb een paar aantekeningen geschreven na het doorlezen van de geweldige nieuwe gids voor contextengineering van Anthropic:
Contextengineering vs. promptengineering
- Promptengineering = schrijven en organiseren van instructies
- Contextengineering = cureren en onderhouden van prompts, tools, geschiedenis,
en externe gegevens
- Contextengineering is iteratief, en context wordt regelmatig gecureerd
Waarom is contextengineering belangrijk?
- Beperkt aandachtbudget
- Contextrot treedt op als de context te groot wordt; contextengineering helpt
- Doel: cureren en onderhouden van minimale hoge-signaal tokens
Anatomie van effectieve context
- Systeem prompts: duidelijk, op de juiste hoogte (niet te specifiek of te vaag)
- Tools: houd tools minimaal, gebruik beschrijvende parameters en streef naar
token-efficiëntie
- Few-shot voorbeelden: bied diverse, canonieke voorbeelden van gewenst gedrag
- Berichten geschiedenis: agressief snoeien
Strategieën voor contextretrieval
- Pre-retrieval vs just-in-time; er is een verschuiving naar agentische zoekopdrachten
- Gebruik lichte referenties (bestandspaden, opgeslagen zoekopdrachten) om dynamisch
context te laden tijdens runtime
- Maak incrementele ontdekking van relevante context mogelijk via verkenning
- Hybride zoekstrategie: preload + dynamisch ophalen
Contextengineering voor langetermijntaken
- Compactie: samenvatten & resetten van context naarmate subtaken zijn voltooid
- Gestructureerd notities maken: gebruik persistente externe geheugen (logs, to-do's)
- Sub-agenten: coördinator plant/coördineert, en sub-agenten voeren taken uit met hun eigen contextvensters die vervolgens worden samengevat
Ik geloof dat dit de fundamenten zijn voor het bouwen van schaalbare, betrouwbare contextpijplijnen voor AI-agenten. Maar er is veel meer aan de hand. Ik ben er zeker van dat er na verloop van tijd effectievere strategieën zullen ontstaan.

48,05K
Hoe train je kleine redeneermodellen effectiever?
Dit is een probleem waar veel AI-ontwikkelaars tegenaan lopen. RL-fijnstelling heeft over het algemeen de neiging om te stabiliseren, vooral voor modellen van 1–2B.
Ik denk dat DeepSearch hier een echt schone aanpak biedt. Het neemt het idee van Monte Carlo Tree Search (MCTS) tijdens inferentie en verplaatst het naar de trainingslus. Die verschuiving ontgrendelt betere verkenning en efficiënter leren.
Hier zijn mijn aantekeningen uit het paper:
De lus omvat vier belangrijke ideeën:
Zoeken Tijdens Training: In plaats van alleen zoeken tijdens de testfase, wordt MCTS uitgevoerd tijdens RL-training. Een lokale UCT-selector rangschikt broers en zussen, terwijl een globale frontier-scorer veelbelovende bladeren over de hele boom selecteert op basis van ouderwaarde, entropie en diepte.
Leren Van Zowel Overwinningen Als Zeker Foute Antwoorden: Als er geen correcte oplossing wordt gevonden, leert het model nog steeds door de zelfverzekerde foute weg (laagste entropiefouten) te superviseren. Correcte paden blijven niet-negatief tijdens updates, wat helpt bij de toewijzing van krediet op stap-niveau.
Stabiliseren van RL met Tree-GRPO: Ze verfijnen PPO-stijl doelstellingen met knooppunt-niveau q-waarden, alleen gemiddelde normalisatie en een zachte clippingstrategie. Dit voorkomt beloningsexplosies terwijl de gradiënten informatief blijven.
Efficiënt Blijven: Om verspilde rekencapaciteit te verminderen, filtert DeepSearch naar een harde subset van problemen, cachet oplossingen zodra ze zijn geverifieerd en slaat volledige zoekopdrachten over wanneer een antwoord al bekend is.
Al deze verbeteringen leiden tot sterke resultaten.
DeepSearch-1.5B bereikt 62,95% op AIME/AMC benchmarks, wat een top Nemotron-basislijn overtreft terwijl het slechts ~330 GPU-uren gebruikt. Ter vergelijking, normale RL-training stabiliseert lager, zelfs met 1.800+ GPU-uren.
Paper:
Ik denk dat dit paper een praktische recept biedt om door plateaus in kleine redeneer-LM's heen te breken:
• Verplaats zoeken naar training, niet alleen inferentie
• Superviseer zowel juiste als foute paden
• Gebruik globale prioritering om slimmer te verkennen
• Cache en filter om de efficiëntie hoog te houden

26,87K
Boven
Positie
Favorieten