🚨 NuRL: Posouvání hranic uvažování LLM
GRPO zlepšuje uvažování LLM, ale často v "komfortní zóně" modelu: tvrdé vzorky (s 0% úspěšností) zůstávají neřešitelné a přispívají nulovými signály učení. V NuRL ukazujeme, že "pošťuchování" LLM pomocí vlastních nápověd efektivně rozšiřuje učební zónu 👉modelu konzistentní zisky v pass@1 na 6 benchmarkech s 3 modely a zvyšuje pass@1024 na náročných úkolech!
Klíčové poznatky:
1⃣GRPO se nemůže poučit z problémů, které model nikdy nevyřeší správně, ale NuRL používá "nápovědy" generované vlastními silami, aby se těžké problémy daly naučit
2⃣Nejlépe fungují abstraktní nápovědy na vysoké úrovni – prozrazení příliš mnoho o odpovědi může ve skutečnosti poškodit výkon!
3⃣NuRL zlepšuje výkon v 6 benchmarkech a 3 modelech (+0,8-1,8 % oproti GRPO), přičemž během trénování používá méně nasazení
4⃣NuRL pracuje s vlastními nápovědami (není potřeba žádný externí model) a vykazuje větší zisky v kombinaci se škálováním za dobu testu
5⃣NuRL zvyšuje horní limit: zvyšuje pass@1024 až o +7,6 % na náročných datových sadách (např. GPQA, Date Understanding)
🧵