Rubriques tendance
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Meta vient de publier des lois de mise à l'échelle RL : une simple courbe sigmoïde peut prédire les résultats RL à grande échelle.
Cet article leur a coûté environ 4,2 millions de dollars (400K heures GB200) à réaliser.
Points clés à retenir :
- Accepter la leçon amère : les méthodes qui semblent supérieures avec de petits budgets de calcul peuvent être moins efficaces lorsqu'elles sont extrapolées à des régimes de calcul importants.
- La sagesse commune comme l'agrégation des pertes, la normalisation, l'algorithme hors politique, ne fait pas monter le plafond de performance RL.
- Utiliser une précision FP32 dans la couche finale (tête LM) donne un énorme coup de pouce à la récompense asymptotique.
- Une réflexion plus longue n'est pas inutile : des contextes plus longs s'entraînent plus lentement mais atteignent des plafonds plus élevés.
Article très important à mon avis. Bon travail Meta !

Meilleurs
Classement
Favoris

