🚨 NuRL: Împingerea limitelor raționamentului LLM GRPO îmbunătățește raționamentul LLM, dar adesea în "zona de confort" a modelului: eșantioanele dure (cu 0% rată de promovare) rămân de nerezolvat și contribuie cu zero semnale de învățare. În NuRL, arătăm că "împingerea" LLM cu sugestii auto-generate extinde eficient zona 👉de învățare a modelului câștiguri consistente în pass@1 pe 6 benchmark-uri cu 3 modele și crește pass@1024 la sarcini dificile! Concluzii cheie: 1⃣GRPO nu poate învăța din probleme pe care modelul nu le rezolvă niciodată corect, dar NuRL folosește "indicii" auto-generate pentru a face problemele dificile ușor de învățat 2⃣Sugestiile abstracte, de nivel înalt, funcționează cel mai bine – dezvăluirea prea multor despre răspuns poate afecta de fapt performanța! 3⃣NuRL îmbunătățește performanța în 6 benchmark-uri și 3 modele (+0,8-1,8% față de GRPO), folosind în același timp mai puține lansări în timpul instruirii 4⃣NuRL funcționează cu sugestii auto-generate (nu este nevoie de model extern) și prezintă câștiguri mai mari atunci când este combinat cu scalarea timpului de testare 5⃣NuRL crește limita superioară: crește pass@1024 până la +7,6% pe seturile de date dificile (de exemplu, GPQA, Date Understanding) 🧵