Meta ha appena pubblicato le leggi di scaling RL: una semplice curva sigmoide può prevedere gli esiti del RL su larga scala. Questo documento è costato loro circa ~$4,2 milioni (400K ore GB200) per essere realizzato. Punti chiave: - Abbracciare la Lezione Amara: i metodi che sembrano superiori con budget di calcolo ridotti possono risultare peggiori quando vengono estrapolati a regimi di calcolo elevato. - La saggezza comune come l'aggregazione delle perdite, la normalizzazione, gli algoritmi off-policy, non alzano il tetto delle prestazioni del RL. - Utilizzare la precisione FP32 nell'ultimo strato (testa LM) offre un enorme aumento nella ricompensa asintotica. - Pensare più a lungo non è uno spreco: contesti più lunghi si allenano più lentamente ma raggiungono tetti più alti. Documento molto importante secondo me. Ottimo lavoro Meta!