Populære emner
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

elvis
Bygge med AI-agenter @dair_ai • Forrige: Meta AI, Galactica LLM, Elastic, PaperswithCode, PhD • Jeg deler innsikt om hvordan du bygger med LLM-er og AI-agenter ⬇️
Hvordan bruker du effektiv kontekstteknikk for AI-agenter?
Les dette hvis du er en AI-utvikler som bygger AI-agenter i dag.
Kontekst er konge! Og det må konstrueres, ikke bare tilskyndes.
Jeg skrev noen notater etter å ha lest gjennom den fantastiske nye konteksttekniske guiden fra Anthropic:
Kontekstteknikk vs. Prompt Engineering
- Prompt Engineering = skrive og organisere instruksjoner
- Kontekstteknikk = kuratere og vedlikeholde spørsmål, verktøy, historikk,
og eksterne data
- Kontekstteknikk er iterativ, og kontekst kurateres regelmessig
Hvorfor kontekstteknikk er viktig?
- Begrenset oppmerksomhetsbudsjett
- Kontekstråte oppstår hvis konteksten blir for stor; Kontekstteknikk hjelper
- Mål: kuratere og vedlikeholde minimalt med høysignal-tokens
Anatomi av effektiv kontekst
Systemmeldinger: klar, riktig høyde (ikke for spesifikk eller for vag)
- Verktøy: Hold verktøyene minimale, bruk beskrivende parametere og sikt mot
token-effektivitet
- Few-Shots-eksempler: Gi varige, kanoniske eksempler på ønsket atferd
- Meldingshistorikk: beskjær aggressivt
Strategier for gjenfinning av kontekst
- Forhåndshenting vs just-in-time; Det er et skifte mot agentisk søk
- Bruk lette refs (filbaner, lagrede spørringer) for å laste inn dynamisk
kontekst under kjøring
- Muliggjøre inkrementell oppdagelse av relevant kontekst via utforskning
- Hybrid søkestrategi: forhåndslast + hent dynamisk
Kontekstteknikk for langsiktige oppgaver
- Komprimering: oppsummer og tilbakestill kontekst etter hvert som deloppgaver fullføres
- Strukturert notattaking: bruk vedvarende eksternt minne (logger, gjøremål)
- Underagenter: orkestratorkoordinerer/planlegger, og underagenter utfører oppgaver med sine egne kontekstvinduer som deretter oppsummeres
Jeg tror dette er grunnlaget for å bygge skalerbare, pålitelige kontekstpipeliner for AI-agenter. Men det er mye mer i dette. Jeg er sikker på at mer effektive strategier vil dukke opp etter hvert som tiden går.

47,83K
Hvordan trener du små resonneringsmodeller mer effektivt?
Dette er et problem mange AI-utviklere støter på. RL-finjustering har generelt en tendens til å flate ut, spesielt for 1–2B-modeller.
Jeg tror DeepSearch tilbyr en veldig ren tilnærming her. Den tar ideen om Monte Carlo Tree Search (MCTS) ved slutning og flytter den inn i treningssløyfen. Dette skiftet låser opp bedre utforskning og mer effektiv læring.
Her er notatene mine fra avisen:
Sløyfen involverer fire hovedideer:
Søk under opplæring: I stedet for bare å gjøre søk på testtidspunktet, kjøres MCTS under RL-trening. En lokal UCT-velger rangerer søsken, mens en global grensescorer velger lovende blader over hele treet basert på foreldreverdi, entropi og dybde.
Lære av både seire og sikre feil: Hvis en riktig løsning ikke blir funnet, lærer modellen fortsatt ved å overvåke den sikre feil veien (laveste entropifeil). Riktige baner forblir ikke-negative under oppdateringer, noe som hjelper med kreditttildeling på trinnnivå.
Stabilisering av RL med Tree-GRPO: De avgrenser mål i PPO-stil med q-verdier på nodenivå, normalisering av kun gjennomsnitt og en myk klippestrategi. Dette unngår belønningseksplosjoner samtidig som gradientene holdes informative.
Holde seg effektiv: For å redusere bortkastet databehandling filtrerer DeepSearch til et hardt delsett av problemer, bufrer løsninger når de er bekreftet, og hopper over fullt søk når et svar allerede er kjent.
Alle disse forbedringene fører til sterke resultater.
DeepSearch-1.5B når 62,95 % på AIME/AMC-benchmarks, og slår en topp Nemotron-baseline mens den bare bruker ~330 GPU-timer. Til sammenligning senkes normal RL-trening selv med 1,800+ GPU-timer.
Papir:
Jeg tror denne artikkelen tilbyr en praktisk oppskrift for å bryte gjennom platåer i små resonnerende LM-er:
• Flytt søk til trening, ikke bare slutning
• Overvåke både rett og gal vei
• Bruk global prioritering for å utforske smartere
• Cache og filter for å holde effektiviteten høy

26,86K
Topp
Rangering
Favoritter