🚨 NuRL: Spingere i confini del ragionamento LLM GRPO migliora il ragionamento LLM, ma spesso all'interno della "zona di comfort" del modello: i campioni difficili (con tasso di successo del 0%) rimangono irrisolvibili e non contribuiscono a segnali di apprendimento. In NuRL, dimostriamo che "spingere" il LLM con suggerimenti auto-generati espande efficacemente la zona di apprendimento del modello 👉 guadagni costanti in pass@1 su 6 benchmark con 3 modelli e aumenta pass@1024 su compiti impegnativi! Punti chiave: 1⃣GRPO non può apprendere da problemi che il modello non risolve mai correttamente, ma NuRL utilizza "suggerimenti" auto-generati per rendere i problemi difficili apprendibili 2⃣Suggerimenti astratti e ad alto livello funzionano meglio: rivelare troppo sulla risposta può effettivamente danneggiare le prestazioni! 3⃣NuRL migliora le prestazioni su 6 benchmark e 3 modelli (+0.8-1.8% rispetto a GRPO), utilizzando meno rollout durante l'addestramento 4⃣NuRL funziona con suggerimenti auto-generati (nessun modello esterno necessario) e mostra guadagni maggiori quando combinato con la scalabilità al momento del test 5⃣NuRL alza il limite superiore: aumenta pass@1024 fino a +7.6% su dataset impegnativi (ad es., GPQA, Comprensione delle Date) 🧵