Evolución del aprendizaje de pocos disparos para LLMs de razonamiento moderno utilizando @NethermindEth AuditAgent como ejemplo. A continuación, puedes ver un gráfico interesante, o más bien una comparación del número de vulnerabilidades correctamente identificadas por nuestro producto en comparación con LLMs listos como @OpenAI GPT-5, @AnthropicAI Claude Opus 4.1, @Google Gemini 2.5 Pro, o @xai Grok-4. Por supuesto, la parte obvia de esta comparación, que he mostrado muchas veces antes y no hay nada nuevo en ello, es que un agente especializado casi siempre superará a una solución de propósito general. Esta situación se explica bastante fácilmente por el hecho de que todas las soluciones de propósito general son parte de nuestra solución especializada, aunque la contribución mucho mayor al resultado proviene de una gestión adecuada del contexto o lo que @karpathy llamó recientemente "Ingeniería de Contexto." Además de esto, el uso de herramientas correctas y su selección - un modelo de propósito general siempre tendrá problemas porque hay miles de millones de herramientas y aprender a usarlas todas es una habilidad grande y separada, mientras que nosotros enseñamos explícitamente a nuestro modelo especializado esto. Luego está el uso de bases de conocimiento correctas y algoritmos de búsqueda adecuados para ellas, y así sucesivamente. Así que de una forma u otra, hacemos todo lo posible, utilizamos todas las herramientas posibles para superar estas soluciones de propósito general. Pero el matiz interesante al que quería llamar la atención es que si miras la imagen que publiqué hace un año más o menos, las mejores soluciones listas eran los modelos de OpenAI o Anthropic con la etiqueta "Aprendizaje de Pocos Disparos", mientras que ahora todos los mejores son Vanilla. Y este cambio ha estado ocurriendo gradualmente con la aparición del razonamiento como tal en los modelos y con la mejora de su calidad. La conclusión que se puede extraer es que los ejemplos de soluciones correctas listas que el modelo recibe de nosotros como aprendizaje en contexto, cuando literalmente se los mostramos en el aviso, dejan de ayudar a resolver la tarea, o más precisamente, sin ellos el modelo que puede razonar resuelve el problema incluso mejor. Es decir, limitamos algo sus capacidades al mostrarle varios ejemplos que hemos seleccionado. Además, un aspecto interesante es que los modelos con acceso a internet y selección automática de esta herramienta también comienzan a superar todo, lo que significa que el modelo puede ir a internet por sí mismo y formular el contexto correcto para sí mismo. Sí, por supuesto, hay un riesgo de que el modelo encuentre la respuesta correcta, pero naturalmente trabajamos específicamente con esto, hacemos listas negras de sitios y así sucesivamente, así que tratamos de no tener tal filtración en los datos (la evaluación adecuada es clave en general). Pero la tendencia es interesante: los modelos se están volviendo más inteligentes y asumiendo cada vez más componentes de la solución por sí mismos, sin requerir que los desarrolladores hagan explícitamente ciertos ajustes en el contexto. ¿Cuál es tu experiencia con esto?
546