Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Meta ha appena pubblicato le leggi di scaling RL: una semplice curva sigmoide può prevedere gli esiti del RL su larga scala.
Questo documento è costato loro circa ~$4,2 milioni (400K ore GB200) per essere realizzato.
Punti chiave:
- Abbracciare la Lezione Amara: i metodi che sembrano superiori con budget di calcolo ridotti possono risultare peggiori quando vengono estrapolati a regimi di calcolo elevato.
- La saggezza comune come l'aggregazione delle perdite, la normalizzazione, gli algoritmi off-policy, non alzano il tetto delle prestazioni del RL.
- Utilizzare la precisione FP32 nell'ultimo strato (testa LM) offre un enorme aumento nella ricompensa asintotica.
- Pensare più a lungo non è uno spreco: contesti più lunghi si allenano più lentamente ma raggiungono tetti più alti.
Documento molto importante secondo me. Ottimo lavoro Meta!

Principali
Ranking
Preferiti