Populære emner
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Meta droppet nettopp RL-skaleringslover: En enkel sigmoidkurve kan forutsi RL-utfall i stor skala.
Denne artikkelen kostet dem ~4,2 millioner dollar (400K GB200 timer) å kjøre.
Viktige takeaways:
- Omfavne den bitre leksjonen: Metoder som ser ut til å være overlegne ved små databehandlingsbudsjetter, kan være verre når de ekstrapoleres til store databehandlingsregimer.
- Vanlig visdom som tapsaggregering, normalisering, algoritme utenfor politikken, hever ikke RL-ytelsestaket.
- Bruk av FP32-presisjon i det siste laget (LM-hode) gir et enormt løft i den asymptotiske belønningen.
- Lengre tenkning er ikke bortkastet: lengre sammenhenger trener saktere, men når høyere tak.
Veldig viktig papir imo. Bra jobba Meta!

Topp
Rangering
Favoritter