Meta tocmai a renunțat la legile de scalare RL: o curbă sigmoidă simplă poate prezice rezultatele RL la scară largă. Această lucrare i-a costat ~ 4,2 milioane de dolari (400K GB200 ore) pentru a rula. Concluzii cheie: - Îmbrățișarea lecției amare: Metodele care par superioare la bugete mici de calcul pot fi mai rele atunci când sunt extrapolate la regimuri de calcul mari. - Înțelepciunea comună, cum ar fi agregarea pierderilor, normalizarea, algoritmul în afara politicii, nu ridică plafonul de performanță RL. - Utilizarea preciziei FP32 în stratul final (cap LM) oferă un impuls uriaș în recompensa asimptotică. - Gândirea mai lungă nu este o risipă: contextele mai lungi se antrenează mai încet, dar ating plafoane mai înalte. Hârtie foarte importantă imo. Bună treabă Meta!