Temas en tendencia
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Meta acaba de eliminar las leyes de escalado de RL: una simple curva sigmoide puede predecir resultados de RL a gran escala.
Este documento les costó ~ $ 4.2 millones (400K GB200 horas) para ejecutarse.
Conclusiones clave:
- Abrazando la amarga lección: Los métodos que parecen superiores en presupuestos de cómputo pequeños pueden ser peores cuando se extrapolan a regímenes de cómputo grande.
- La sabiduría común como la agregación de pérdidas, la normalización, el algoritmo fuera de la política, no elevan el techo de rendimiento de RL.
- El uso de la precisión FP32 en la capa final (cabeza LM) da un gran impulso en la recompensa asintótica.
- Pensar más largo no es un desperdicio: los contextos más largos se entrenan más lentamente pero alcanzan techos más altos.
Un artículo muy importante en mi opinión. ¡Buen trabajo Meta!

Populares
Ranking
Favoritas