🚨 NuRL: LLM-päättelyn rajojen tönäisy. GRPO parantaa LLM-päättelyä, mutta usein mallin "mukavuusalueella": kovat näytteet (0 %:n läpäisyasteella) pysyvät ratkaisemattomina eivätkä anna mitään oppimissignaaleja. NuRL:ssä osoitamme, että LLM:n "tönäisy" itse luoduilla vihjeillä laajentaa tehokkaasti mallin oppimisvyöhykkeen 👉johdonmukaisia voittoja pass@1 6 vertailuarvossa 3 mallilla ja nostaa pass@1024 haastaviin tehtäviin! Tärkeimmät huomiot: 1⃣GRPO ei voi oppia ongelmista, joita malli ei koskaan ratkaise oikein, mutta NuRL käyttää itse luotuja "vihjeitä" tehdäkseen vaikeista ongelmista opittavissa 2⃣Abstraktit, korkean tason vihjeet toimivat parhaiten – liiallinen vastauksen paljastaminen voi itse asiassa heikentää suorituskykyä! 3⃣NuRL parantaa suorituskykyä 6 vertailuarvossa ja 3 mallissa (+0,8–1,8 % verrattuna GRPO:hon) ja käyttää vähemmän käyttöönottoja harjoittelun aikana 4⃣NuRL toimii itse luotujen vihjeiden kanssa (ulkoista mallia ei tarvita) ja näyttää suurempia etuja yhdistettynä testiaikaiseen skaalaukseen 5⃣NuRL nostaa ylärajaa: se nostaa pass@1024 jopa +7,6 % haastavissa tietojoukoissa (esim. 🧵