Gestión Autónoma de la Memoria en Agentes LLM Los agentes LLM luchan con tareas de largo horizonte debido a la sobrecarga de contexto. A medida que la historia de interacción crece, los costos computacionales explotan, la latencia aumenta y el razonamiento se degrada por la distracción de errores pasados irrelevantes. El enfoque estándar es solo de adición: cada pensamiento, llamada a herramientas y respuesta se acumula permanentemente. Esto funciona para tareas cortas pero garantiza el fracaso en exploraciones complejas. Esta investigación presenta Focus, una arquitectura centrada en el agente inspirada en el moho mucilaginoso (Physarum polycephalum). La idea biológica: los organismos no retienen registros perfectos de cada movimiento a través de un laberinto. Retienen el mapa aprendido. Focus proporciona a los agentes dos nuevos primitivos: start_focus y complete_focus. El agente decide de manera autónoma cuándo consolidar aprendizajes en un bloque de Conocimiento persistente y poda activamente la historia de interacción cruda. Sin temporizadores externos ni heurísticas que obliguen a la compresión. Declara lo que estás investigando, explora utilizando herramientas estándar y luego consolida resumiendo lo que se intentó, lo que se aprendió y el resultado. El sistema añade esto a un bloque de Conocimiento persistente y elimina todo entre el punto de control y el paso actual. Esto convierte un contexto que aumenta monotonamente en un patrón de sierra: crecimiento durante la exploración, colapso durante la consolidación. La evaluación en SWE-bench Lite con Claude Haiku 4.5 muestra que Focus logra una reducción del 22.7% en tokens (de 14.9M a 11.5M tokens) mientras mantiene una precisión idéntica (60% tanto para la línea base como para Focus). Las instancias individuales mostraron ahorros de hasta el 57%. El prompting agresivo importa. El prompting pasivo solo generó un 6% de ahorros. Instrucciones explícitas para comprimir cada 10-15 llamadas a herramientas, con recordatorios del sistema, aumentaron las compresiones de 2.0 a 6.0 por tarea. Los modelos capaces pueden autorregular su contexto de manera autónoma cuando se les proporcionan herramientas y prompting apropiados, abriendo caminos para sistemas agentes conscientes de costos sin sacrificar el rendimiento de la tarea. Documento: Aprende a construir agentes de IA efectivos en nuestra academia: