Tendencias del momento
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

elvis
Construyendo con agentes de IA @dair_ai • Anterior: Meta AI, Galactica LLM, Elastic, PaperswithCode, PhD • Comparto ideas sobre cómo construir con LLMs y agentes ⬇️ de IA
¿Cómo aplicas una ingeniería de contexto efectiva para agentes de IA?
Lee esto si eres un desarrollador de IA que está construyendo agentes de IA hoy.
¡El contexto es rey! Y debe ser diseñado, no solo solicitado.
Escribí algunas notas después de leer la increíble nueva guía de ingeniería de contexto de Anthropic:
Ingeniería de Contexto vs. Ingeniería de Prompts
- Ingeniería de Prompts = escribir y organizar instrucciones
- Ingeniería de Contexto = curar y mantener prompts, herramientas, historial,
y datos externos
- La Ingeniería de Contexto es iterativa, y el contexto se cura regularmente
¿Por qué importa la Ingeniería de Contexto?
- Presupuesto de atención finito
- La degradación del contexto ocurre si el contexto se vuelve demasiado grande; la ingeniería de contexto ayuda
- Objetivo: curar y mantener tokens de alta señal mínimos
Anatomía de un Contexto Efectivo
- Prompts del sistema: claros, en la altitud correcta (no demasiado específicos ni demasiado vagos)
- Herramientas: mantener las herramientas al mínimo, usar parámetros descriptivos y buscar
eficiencia en tokens
- Ejemplos de Pocos Disparos: proporcionar ejemplos diversos y canónicos del comportamiento deseado
- Historial de mensajes: podar agresivamente
Estrategias de Recuperación de Contexto
- Pre-recuperación vs justo a tiempo; hay un cambio hacia la búsqueda agente
- Usar referencias ligeras (rutas de archivos, consultas almacenadas) para cargar dinámicamente
el contexto en tiempo de ejecución
- Habilitar el descubrimiento incremental de contexto relevante a través de la exploración
- Estrategia de búsqueda híbrida: precargar + recuperar dinámicamente
Ingeniería de Contexto para Tareas de Largo Plazo
- Compresión: resumir y reiniciar el contexto a medida que se completan subtareas
- Toma de Notas Estructurada: usar memoria externa persistente (registros, tareas pendientes)
- Sub-agentes: el orquestador coordina/planifica, y los sub-agentes realizan tareas con sus propias ventanas de contexto que luego se resumen
Creo que estas son las bases para construir tuberías de contexto escalables y confiables para agentes de IA. Pero hay mucho más en esto. Estoy seguro de que surgirán estrategias más efectivas a medida que pase el tiempo.

48,05K
¿Cómo entrenas modelos de razonamiento pequeños de manera más efectiva?
Este es un problema con el que muchos desarrolladores de IA se encuentran. El ajuste fino por refuerzo (RL), en general, tiende a estancarse, especialmente para modelos de 1 a 2B.
Creo que DeepSearch ofrece un enfoque realmente limpio aquí. Toma la idea de la Búsqueda de Árbol de Monte Carlo (MCTS) en la inferencia y la mueve al bucle de entrenamiento. Ese cambio desbloquea una mejor exploración y un aprendizaje más eficiente.
Aquí están mis notas del artículo:
El bucle involucra cuatro ideas clave:
Buscar Durante el Entrenamiento: En lugar de solo hacer búsqueda en el momento de la prueba, MCTS se ejecuta durante el entrenamiento de RL. Un selector UCT local clasifica a los hermanos, mientras que un evaluador de frontera global elige hojas prometedoras en todo el árbol basado en el valor del padre, la entropía y la profundidad.
Aprender de Ambas Victorias y Errores Confiados: Si no se encuentra una solución correcta, el modelo aún aprende supervisando el camino erróneo confiado (errores de menor entropía). Los caminos correctos permanecen no negativos durante las actualizaciones, lo que ayuda con la asignación de crédito a nivel de paso.
Estabilizando RL con Tree-GRPO: Refinan los objetivos estilo PPO con valores q a nivel de nodo, normalización solo media y una estrategia de recorte suave. Esto evita explosiones de recompensa mientras mantiene informativos los gradientes.
Manteniéndose Eficiente: Para reducir el cómputo desperdiciado, DeepSearch filtra a un subconjunto duro de problemas, almacena soluciones una vez que se verifican y omite la búsqueda completa cuando ya se conoce una respuesta.
Todas estas mejoras conducen a resultados sólidos.
DeepSearch-1.5B alcanza un 62.95% en los benchmarks AIME/AMC, superando una línea base de Nemotron mientras utiliza solo ~330 horas de GPU. En comparación, el entrenamiento normal de RL se estanca más bajo incluso con más de 1,800 horas de GPU.
Artículo:
Creo que este artículo ofrece una receta práctica para romper los estancamientos en los LMs de razonamiento pequeños:
• Mover la búsqueda al entrenamiento, no solo a la inferencia
• Supervisar tanto los caminos correctos como los incorrectos
• Usar priorización global para explorar de manera más inteligente
• Almacenar en caché y filtrar para mantener alta la eficiencia

26,87K
Parte superior
Clasificación
Favoritos