Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

elvis
Costruire con gli agenti AI @dair_ai • Indietro: Meta AI, Galactica LLM, Elastic, PaperswithCode, PhD • Condivido approfondimenti su come costruire con LLM e agenti ⬇️ AI
La realtà è che dovremmo tutti cercare di costruire il nostro ideale collaboratore agentico.
Il Cowork di Anthropic segna una nuova ondata di strumenti di orchestrazione degli agenti all'orizzonte.
Non si tratta solo di rendere facile l'uso di Claude Code.
A mio avviso, si tratta più di costruire interfacce intuitive per interagire, gestire e orchestrare agenti per essere più produttivi con l'AI.
C'è spazio per l'innovazione in come avviene la comunicazione da umano a agente (e viceversa). E intendo ovunque e in ogni dominio tu possa immaginare.
Con l'emergere di Skills e plugin, chiunque può costruire esperienze potenti con questi agenti e strumenti. Non è necessario essere tecnici per interrompere e costruire abilità creative e incredibilmente utili (sia per il lavoro, un progetto personale o persino una startup). Devi avere buon gusto nel dominio in cui operi, prestare attenzione alle tecnologie emergenti dell'AI, sperimentare incessantemente, costruire contesto e costruire con una mentalità di accumulo.
Tempi entusiasmanti ci aspettano. È tempo di costruire!

53
Vale la pena l'Agentic RAG?
I sistemi RAG si sono evoluti da semplici pipeline recuperatore-generatore a flussi di lavoro sofisticati. Rimane poco chiaro quando utilizzare l'Enhanced RAG (pipeline fisse con moduli dedicati) rispetto all'Agentic RAG (LLM orchestra l'intero processo in modo dinamico).
Questa ricerca fornisce il primo confronto empirico.
L'Enhanced RAG aggiunge componenti predefiniti per affrontare debolezze specifiche: router per determinare se è necessario il recupero, riscrittori di query per migliorare l'allineamento e reranker per affinare la selezione dei documenti. Il flusso di lavoro è fisso e progettato manualmente.
L'Agentic RAG adotta un approccio diverso. L'LLM decide quali azioni eseguire, quando eseguirle e se iterare. Nessun componente extra oltre alla base di conoscenza di base, recuperatore e generatore. Il modello controlla tutto.
I ricercatori hanno valutato entrambi i paradigmi su quattro dimensioni in compiti di QA e recupero di informazioni.
Gestione dell'intento dell'utente: l'Agentic supera leggermente l'Enhanced nella maggior parte dei compiti, ma l'Enhanced vince decisamente su FEVER (+28.8 punti F1), dove l'agente spesso recupera inutilmente.
Riscrittura delle query: l'Agentic RAG ottiene una media di 55.6 NDCG@10 rispetto a 52.8 per l'Enhanced, dimostrando che l'agente può riscrivere le query in modo adattivo quando è vantaggioso.
Affinamento dei documenti: l'Enhanced RAG con reranking (49.5 NDCG@10) supera l'Agentic (43.9). I moduli reranker dedicati superano i tentativi di recupero iterativo.
L'Agentic RAG è molto più sensibile alla capacità del modello. Con modelli più deboli, l'Enhanced RAG mantiene stabilità mentre le prestazioni dell'Agentic degradano significativamente.
L'analisi dei costi rivela che l'Agentic RAG richiede da 2 a 10 volte più tempo di calcolo e token a causa del ragionamento multi-step.
La scelta tra Enhanced e Agentic RAG dipende dai tuoi vincoli. L'Enhanced RAG offre prevedibilità, costi inferiori e stabilità con modelli più deboli. L'Agentic RAG fornisce flessibilità ma richiede modelli più forti e più potenza di calcolo.
Documento:
Impara a costruire sistemi Agentic RAG efficaci nella nostra accademia:

100
Soluzione di memoria semplice per compiti a lungo termine.

DAIR.AI15 gen, 22:22
Gestione della Memoria Autonoma negli Agenti LLM
Gli agenti LLM faticano con compiti a lungo termine a causa dell'ingombro del contesto.
Man mano che la storia delle interazioni cresce, i costi computazionali esplodono, la latenza aumenta e il ragionamento degrada a causa delle distrazioni dovute a errori passati irrilevanti.
L'approccio standard è solo append-only: ogni pensiero, chiamata a uno strumento e risposta si accumula permanentemente. Questo funziona per compiti brevi ma garantisce il fallimento per esplorazioni complesse.
Questa ricerca introduce Focus, un'architettura centrata sull'agente ispirata al mucillagine (Physarum polycephalum). L'intuizione biologica: gli organismi non mantengono registrazioni perfette di ogni movimento attraverso un labirinto. Mantengono la mappa appresa.
Focus fornisce agli agenti due nuove primitive: start_focus e complete_focus. L'agente decide autonomamente quando consolidare gli apprendimenti in un blocco di Conoscenza persistente e pota attivamente la storia delle interazioni grezze. Nessun timer esterno o euristiche che forzano la compressione.
Dichiara cosa stai investigando, esplora utilizzando strumenti standard e poi consolida riassumendo ciò che è stato tentato, ciò che è stato appreso e il risultato. Il sistema aggiunge questo a un blocco di Conoscenza persistente e cancella tutto tra il checkpoint e il passo attuale.
Questo converte un contesto in crescita monotonicamente in un modello a dente di sega: crescita durante l'esplorazione, collasso durante la consolidazione.
La valutazione su SWE-bench Lite con Claude Haiku 4.5 mostra che Focus raggiunge una riduzione del 22,7% dei token (da 14,9M a 11,5M token) mantenendo un'accuratezza identica (60% sia per il baseline che per Focus). I singoli casi hanno mostrato risparmi fino al 57%.
Il prompting aggressivo è importante. Il prompting passivo ha prodotto solo un risparmio del 6%. Istruzioni esplicite per comprimere ogni 10-15 chiamate a strumenti, con promemoria del sistema, hanno aumentato le compressioni da 2,0 a 6,0 per compito.
I modelli capaci possono autoregolare autonomamente il loro contesto quando dotati di strumenti e prompting appropriati, aprendo percorsi per sistemi agentici consapevoli dei costi senza sacrificare le prestazioni nei compiti.
Documento:
Impara a costruire agenti AI efficaci nella nostra accademia:

13
Principali
Ranking
Preferiti
