Meta vient de publier des lois de mise à l'échelle RL : une simple courbe sigmoïde peut prédire les résultats RL à grande échelle. Cet article leur a coûté environ 4,2 millions de dollars (400K heures GB200) à réaliser. Points clés à retenir : - Accepter la leçon amère : les méthodes qui semblent supérieures avec de petits budgets de calcul peuvent être moins efficaces lorsqu'elles sont extrapolées à des régimes de calcul importants. - La sagesse commune comme l'agrégation des pertes, la normalisation, l'algorithme hors politique, ne fait pas monter le plafond de performance RL. - Utiliser une précision FP32 dans la couche finale (tête LM) donne un énorme coup de pouce à la récompense asymptotique. - Une réflexion plus longue n'est pas inutile : des contextes plus longs s'entraînent plus lentement mais atteignent des plafonds plus élevés. Article très important à mon avis. Bon travail Meta !