Tópicos em alta
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Meta acabou de abandonar as leis de escala de RL: uma curva sigmóide simples pode prever resultados de RL em larga escala.
Este artigo custou ~ $ 4,2 milhões (400 mil GB200 horas) para ser executado.
Principais conclusões:
- Abraçando a lição amarga: Métodos que parecem superiores em orçamentos de computação pequena podem ser piores quando extrapolados para regimes de computação grande.
- Senso comum como agregação de perdas, normalização, algoritmo fora da política, não aumenta o teto de desempenho de RL.
- Usar a precisão FP32 na camada final (cabeça LM) dá um grande impulso na recompensa assintótica.
- Pensar mais não é um desperdício: contextos mais longos treinam mais devagar, mas atingem tetos mais altos.
Papel muito importante imo. Bom trabalho Meta!

Melhores
Classificação
Favoritos

