Meta har precis släppt RL-skalningslagar: En enkel sigmoidkurva kan förutsäga storskaliga RL-resultat. Detta papper kostade dem ~4,2 miljoner dollar (400K GB200 timmar) att köra. Viktigt att ta med sig: - Omfamna den bittra läxan: Metoder som verkar överlägsna vid små beräkningsbudgetar kan vara sämre när de extrapoleras till stora beräkningsregimer. - Vanlig visdom som förlustaggregering, normalisering, algoritm utanför policyn höjer inte RL-prestandataket. - Att använda FP32-precision i det sista lagret (LM-huvud) ger en enorm ökning av den asymptotiska belöningen. - Att tänka längre är inte slösaktigt: längre sammanhang går långsammare men når högre tak. Mycket viktigt papper imo. Bra jobbat Meta!