Subiecte populare
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Meta tocmai a renunțat la legile de scalare RL: o curbă sigmoidă simplă poate prezice rezultatele RL la scară largă.
Această lucrare i-a costat ~ 4,2 milioane de dolari (400K GB200 ore) pentru a rula.
Concluzii cheie:
- Îmbrățișarea lecției amare: Metodele care par superioare la bugete mici de calcul pot fi mai rele atunci când sunt extrapolate la regimuri de calcul mari.
- Înțelepciunea comună, cum ar fi agregarea pierderilor, normalizarea, algoritmul în afara politicii, nu ridică plafonul de performanță RL.
- Utilizarea preciziei FP32 în stratul final (cap LM) oferă un impuls uriaș în recompensa asimptotică.
- Gândirea mai lungă nu este o risipă: contextele mai lungi se antrenează mai încet, dar ating plafoane mai înalte.
Hârtie foarte importantă imo. Bună treabă Meta!

Limită superioară
Clasament
Favorite

