Tendencias del momento
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Meta acaba de publicar las leyes de escalado de RL: una simple curva sigmoide puede predecir los resultados de RL a gran escala.
Este artículo les costó alrededor de ~$4.2 millones (400K horas GB200) para ejecutarlo.
Puntos clave:
- Aceptando la Lección Amarga: los métodos que parecen superiores con presupuestos de cómputo pequeños pueden ser peores cuando se extrapolan a regímenes de cómputo grande.
- La sabiduría común como la agregación de pérdidas, la normalización, el algoritmo off-policy, no elevan el techo de rendimiento de RL.
- Usar precisión FP32 en la capa final (cabeza de LM) da un gran impulso en la recompensa asintótica.
- Pensar más tiempo no es un desperdicio: contextos más largos entrenan más lento pero alcanzan techos más altos.
Artículo muy importante en mi opinión. ¡Buen trabajo Meta!

Parte superior
Clasificación
Favoritos