Dato curioso: RLing la mayoría de los modelos de peso abierto de 8b (como qwen 3) directamente en el conjunto de prueba para benchmarks agenticos (como TerminalBench) no funciona. Simplemente no pueden adivinar la respuesta correcta dentro de un presupuesto de muestreo razonable. ¡No puedo esperar a ver el primer modelo de 8b que obtenga una puntuación no trivial en estos benchmarks!