Populární témata
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Meta právě upustila od zákonů škálování RL: Jednoduchá sigmoidní křivka může předpovídat výsledky RL ve velkém měřítku.
Provoz tohoto dokumentu je stál ~4,2 milionu dolarů (400 tisíc hodin GB200).
Klíčové poznatky:
- Přijetí hořké lekce: Metody, které se zdají být lepší při malých výpočetních rozpočtech, mohou být horší, když je extrapolují na režimy velkých výpočtů.
- Obecná moudrost, jako je agregace ztrát, normalizace, algoritmus mimo politiku, nezvyšuje výkonnostní strop RL.
- Použití přesnosti FP32 ve finální vrstvě (LM hlava) poskytuje obrovskou podporu v asymptotické odměně.
- Delší přemýšlení není plýtvání: delší kontexty se trénují pomaleji, ale dosahují vyšších stropů.
Velmi důležitý článek imo. Dobrá práce Meta!

Top
Hodnocení
Oblíbené