Meta droppet nettopp RL-skaleringslover: En enkel sigmoidkurve kan forutsi RL-utfall i stor skala. Denne artikkelen kostet dem ~4,2 millioner dollar (400K GB200 timer) å kjøre. Viktige takeaways: - Omfavne den bitre leksjonen: Metoder som ser ut til å være overlegne ved små databehandlingsbudsjetter, kan være verre når de ekstrapoleres til store databehandlingsregimer. - Vanlig visdom som tapsaggregering, normalisering, algoritme utenfor politikken, hever ikke RL-ytelsestaket. - Bruk av FP32-presisjon i det siste laget (LM-hode) gir et enormt løft i den asymptotiske belønningen. - Lengre tenkning er ikke bortkastet: lengre sammenhenger trener saktere, men når høyere tak. Veldig viktig papir imo. Bra jobba Meta!