Meta acaba de eliminar las leyes de escalado de RL: una simple curva sigmoide puede predecir resultados de RL a gran escala. Este documento les costó ~ $ 4.2 millones (400K GB200 horas) para ejecutarse. Conclusiones clave: - Abrazando la amarga lección: Los métodos que parecen superiores en presupuestos de cómputo pequeños pueden ser peores cuando se extrapolan a regímenes de cómputo grande. - La sabiduría común como la agregación de pérdidas, la normalización, el algoritmo fuera de la política, no elevan el techo de rendimiento de RL. - El uso de la precisión FP32 en la capa final (cabeza LM) da un gran impulso en la recompensa asintótica. - Pensar más largo no es un desperdicio: los contextos más largos se entrenan más lentamente pero alcanzan techos más altos. Un artículo muy importante en mi opinión. ¡Buen trabajo Meta!