DApp Store | Hub Web3 pour les événements et les jeux

Rubriques tendance

elvis

Construire avec des agents d’IA @dair_ai • Précédent : Meta AI, Galactica LLM, Elastic, PaperswithCode, PhD • Je partage des idées sur la façon de construire avec des LLM et des agents ⬇️ d’IA

L'Agentic RAG en vaut-il la peine ? Les systèmes RAG ont évolué d'pipelines simples de récupération-génération à des flux de travail sophistiqués. Il reste flou quand utiliser le RAG Amélioré (pipelines fixes avec des modules dédiés) par rapport au RAG Agentic (LLM orchestre l'ensemble du processus de manière dynamique). Cette recherche fournit la première comparaison empirique. Le RAG Amélioré ajoute des composants pré-définis pour traiter des faiblesses spécifiques : des routeurs pour déterminer si la récupération est nécessaire, des réécrivains de requêtes pour améliorer l'alignement, et des rerankers pour affiner la sélection de documents. Le flux de travail est fixe et conçu manuellement. Le RAG Agentic adopte une approche différente. Le LLM décide quelles actions effectuer, quand les effectuer, et s'il faut itérer. Aucun composant supplémentaire au-delà de la base de connaissances de base, du récupérateur et du générateur. Le modèle contrôle tout. Les chercheurs ont évalué les deux paradigmes sur quatre dimensions lors de tâches de QA et de récupération d'informations. Gestion de l'intention de l'utilisateur : l'Agentic surpasse légèrement l'Amélioré sur la plupart des tâches, mais l'Amélioré gagne de manière décisive sur FEVER (+28,8 points F1), où l'agent récupère souvent inutilement. Réécriture de requête : le RAG Agentic atteint 55,6 de NDCG@10 en moyenne contre 52,8 pour l'Amélioré, montrant que l'agent peut réécrire les requêtes de manière adaptative lorsque cela est bénéfique. Affinement de document : le RAG Amélioré avec reranking (49,5 NDCG@10) surpasse l'Agentic (43,9). Les modules de rerankers dédiés battent les tentatives de récupération itérative. Le RAG Agentic est beaucoup plus sensible à la capacité du modèle. Avec des modèles plus faibles, le RAG Amélioré maintient la stabilité tandis que la performance de l'Agentic se dégrade significativement. L'analyse des coûts révèle que le RAG Agentic nécessite 2 à 10 fois plus de temps de calcul et de tokens en raison du raisonnement en plusieurs étapes. Le choix entre le RAG Amélioré et l'Agentic dépend de vos contraintes. Le RAG Amélioré offre prévisibilité, coûts inférieurs et stabilité avec des modèles plus faibles. Le RAG Agentic fournit flexibilité mais nécessite des modèles plus puissants et plus de calcul. Article : Apprenez à construire des systèmes RAG Agentic efficaces dans notre académie :

Solution de mémoire simple pour des tâches à long terme.

Gestion autonome de la mémoire dans les agents LLM Les agents LLM ont du mal avec les tâches à long terme en raison de l'encombrement du contexte. À mesure que l'historique des interactions s'allonge, les coûts computationnels explosent, la latence augmente et le raisonnement se dégrade à cause des distractions causées par des erreurs passées non pertinentes. L'approche standard est uniquement additive : chaque pensée, appel d'outil et réponse s'accumule de manière permanente. Cela fonctionne pour des tâches courtes mais garantit l'échec pour une exploration complexe. Cette recherche introduit Focus, une architecture centrée sur l'agent inspirée par la moisissure visqueuse (Physarum polycephalum). L'idée biologique : les organismes ne conservent pas des enregistrements parfaits de chaque mouvement à travers un labyrinthe. Ils conservent la carte apprise. Focus donne aux agents deux nouvelles primitives : start_focus et complete_focus. L'agent décide de manière autonome quand consolider les apprentissages dans un bloc de connaissances persistant et taille activement l'historique brut des interactions. Pas de minuteries externes ou d'heuristiques forçant la compression. Il déclare ce que vous enquêtez, explore en utilisant des outils standards, puis consolide en résumant ce qui a été tenté, ce qui a été appris et le résultat. Le système ajoute cela à un bloc de connaissances persistant et supprime tout entre le point de contrôle et l'étape actuelle. Cela convertit un contexte en augmentation monotone en un motif en dents de scie : croissance pendant l'exploration, effondrement pendant la consolidation. L'évaluation sur SWE-bench Lite avec Claude Haiku 4.5 montre que Focus atteint une réduction de 22,7 % des tokens (14,9M à 11,5M tokens) tout en maintenant une précision identique (60 % pour la ligne de base et Focus). Des instances individuelles ont montré des économies allant jusqu'à 57 %. Un prompting agressif est important. Un prompting passif n'a donné que 6 % d'économies. Des instructions explicites pour compresser tous les 10-15 appels d'outils, avec des rappels du système, ont augmenté les compressions de 2,0 à 6,0 par tâche. Des modèles capables peuvent s'auto-réguler de manière autonome leur contexte lorsqu'ils disposent des outils et du prompting appropriés, ouvrant des voies pour des systèmes agentiques conscients des coûts sans sacrifier la performance des tâches. Article : Apprenez à construire des agents IA efficaces dans notre académie :

Meilleurs

Classement

Favoris