Meta acaba de publicar las leyes de escalado de RL: una simple curva sigmoide puede predecir los resultados de RL a gran escala. Este artículo les costó alrededor de ~$4.2 millones (400K horas GB200) para ejecutarlo. Puntos clave: - Aceptando la Lección Amarga: los métodos que parecen superiores con presupuestos de cómputo pequeños pueden ser peores cuando se extrapolan a regímenes de cómputo grande. - La sabiduría común como la agregación de pérdidas, la normalización, el algoritmo off-policy, no elevan el techo de rendimiento de RL. - Usar precisión FP32 en la capa final (cabeza de LM) da un gran impulso en la recompensa asintótica. - Pensar más tiempo no es un desperdicio: contextos más largos entrenan más lento pero alcanzan techos más altos. Artículo muy importante en mi opinión. ¡Buen trabajo Meta!