Tendencias del momento
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
🚨 NuRL: Empujando los Límites del Razonamiento de LLM
GRPO mejora el razonamiento de LLM, pero a menudo dentro de la "zona de confort" del modelo: las muestras difíciles (con 0% de tasa de aprobación) siguen siendo irresolubles y no contribuyen con señales de aprendizaje. En NuRL, mostramos que "empujar" al LLM con pistas autogeneradas expande efectivamente la zona de aprendizaje del modelo 👉 ganancias consistentes en pass@1 en 6 benchmarks con 3 modelos y aumenta pass@1024 en tareas desafiantes!
Conclusiones clave:
1⃣GRPO no puede aprender de problemas que el modelo nunca resuelve correctamente, pero NuRL utiliza "pistas" autogeneradas para hacer que los problemas difíciles sean aprendibles
2⃣Las pistas abstractas y de alto nivel funcionan mejor: ¡revelar demasiado sobre la respuesta puede perjudicar el rendimiento!
3⃣NuRL mejora el rendimiento en 6 benchmarks y 3 modelos (+0.8-1.8% sobre GRPO), mientras utiliza menos rollouts durante el entrenamiento
4⃣NuRL funciona con pistas autogeneradas (no se necesita un modelo externo) y muestra mayores ganancias cuando se combina con escalado en el tiempo de prueba
5⃣NuRL eleva el límite superior: aumenta pass@1024 hasta +7.6% en conjuntos de datos desafiantes (por ejemplo, GPQA, Comprensión de Fechas)
🧵

Parte superior
Clasificación
Favoritos