🚨 NuRL: Empujando los Límites del Razonamiento de LLM GRPO mejora el razonamiento de LLM, pero a menudo dentro de la "zona de confort" del modelo: las muestras difíciles (con 0% de tasa de aprobación) siguen siendo irresolubles y no contribuyen con señales de aprendizaje. En NuRL, mostramos que "empujar" al LLM con pistas autogeneradas expande efectivamente la zona de aprendizaje del modelo 👉 ganancias consistentes en pass@1 en 6 benchmarks con 3 modelos y aumenta pass@1024 en tareas desafiantes! Conclusiones clave: 1⃣GRPO no puede aprender de problemas que el modelo nunca resuelve correctamente, pero NuRL utiliza "pistas" autogeneradas para hacer que los problemas difíciles sean aprendibles 2⃣Las pistas abstractas y de alto nivel funcionan mejor: ¡revelar demasiado sobre la respuesta puede perjudicar el rendimiento! 3⃣NuRL mejora el rendimiento en 6 benchmarks y 3 modelos (+0.8-1.8% sobre GRPO), mientras utiliza menos rollouts durante el entrenamiento 4⃣NuRL funciona con pistas autogeneradas (no se necesita un modelo externo) y muestra mayores ganancias cuando se combina con escalado en el tiempo de prueba 5⃣NuRL eleva el límite superior: aumenta pass@1024 hasta +7.6% en conjuntos de datos desafiantes (por ejemplo, GPQA, Comprensión de Fechas) 🧵