🚨 NuRL: Empujando los límites del razonamiento de LLM GRPO mejora el razonamiento de LLM, pero a menudo dentro de la "zona de confort" del modelo: las muestras duras (con una tasa de aprobación del 0%) siguen siendo irresolubles y no aportan señales de aprendizaje. En NuRL, mostramos que "empujar" el LLM con sugerencias autogeneradas expande efectivamente la zona 👉de aprendizaje del modelo, ganancias consistentes en pass@1 en 6 puntos de referencia con 3 modelos y aumenta pass@1024 en tareas desafiantes! Conclusiones clave: 1⃣GRPO no puede aprender de los problemas que el modelo nunca resuelve correctamente, pero NuRL usa "sugerencias" autogeneradas para hacer que los problemas difíciles se puedan aprender 2⃣Las pistas abstractas de alto nivel funcionan mejor: ¡revelar demasiado sobre la respuesta puede dañar el rendimiento! 3⃣NuRL mejora el rendimiento en 6 puntos de referencia y 3 modelos (+0,8-1,8% sobre GRPO), al tiempo que utiliza menos implementaciones durante la formación 4⃣NuRL funciona con sugerencias autogeneradas (no se necesita un modelo externo) y muestra mayores ganancias cuando se combina con el escalado en tiempo de prueba 5⃣NuRL eleva el límite superior: aumenta la pass@1024 hasta un +7,6% en conjuntos de datos desafiantes (por ejemplo, GPQA, comprensión de fechas) 🧵