Dato curioso: RLing la mayoría de los modelos de peso abierto de tamaño 8b (como qwen 3) directamente en el conjunto de prueba para puntos de referencia agentic (como TerminalBench) no funciona. Simplemente no pueden adivinar la respuesta correcta dentro de un presupuesto de muestreo razonable. ¡No puedo esperar a ver el primer modelo 8b para obtener una puntuación no trivial en estos puntos de referencia!