Trendaavat aiheet
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
🚨 NuRL: LLM-päättelyn rajojen tönäisy.
GRPO parantaa LLM-päättelyä, mutta usein mallin "mukavuusalueella": kovat näytteet (0 %:n läpäisyasteella) pysyvät ratkaisemattomina eivätkä anna mitään oppimissignaaleja. NuRL:ssä osoitamme, että LLM:n "tönäisy" itse luoduilla vihjeillä laajentaa tehokkaasti mallin oppimisvyöhykkeen 👉johdonmukaisia voittoja pass@1 6 vertailuarvossa 3 mallilla ja nostaa pass@1024 haastaviin tehtäviin!
Tärkeimmät huomiot:
1⃣GRPO ei voi oppia ongelmista, joita malli ei koskaan ratkaise oikein, mutta NuRL käyttää itse luotuja "vihjeitä" tehdäkseen vaikeista ongelmista opittavissa
2⃣Abstraktit, korkean tason vihjeet toimivat parhaiten – liiallinen vastauksen paljastaminen voi itse asiassa heikentää suorituskykyä!
3⃣NuRL parantaa suorituskykyä 6 vertailuarvossa ja 3 mallissa (+0,8–1,8 % verrattuna GRPO:hon) ja käyttää vähemmän käyttöönottoja harjoittelun aikana
4⃣NuRL toimii itse luotujen vihjeiden kanssa (ulkoista mallia ei tarvita) ja näyttää suurempia etuja yhdistettynä testiaikaiseen skaalaukseen
5⃣NuRL nostaa ylärajaa: se nostaa pass@1024 jopa +7,6 % haastavissa tietojoukoissa (esim.
🧵

Johtavat
Rankkaus
Suosikit