Trendande ämnen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Meta har precis släppt RL-skalningslagar: En enkel sigmoidkurva kan förutsäga storskaliga RL-resultat.
Detta papper kostade dem ~4,2 miljoner dollar (400K GB200 timmar) att köra.
Viktigt att ta med sig:
- Omfamna den bittra läxan: Metoder som verkar överlägsna vid små beräkningsbudgetar kan vara sämre när de extrapoleras till stora beräkningsregimer.
- Vanlig visdom som förlustaggregering, normalisering, algoritm utanför policyn höjer inte RL-prestandataket.
- Att använda FP32-precision i det sista lagret (LM-huvud) ger en enorm ökning av den asymptotiska belöningen.
- Att tänka längre är inte slösaktigt: längre sammanhang går långsammare men når högre tak.
Mycket viktigt papper imo. Bra jobbat Meta!

Topp
Rankning
Favoriter

