Meta právě upustila od zákonů škálování RL: Jednoduchá sigmoidní křivka může předpovídat výsledky RL ve velkém měřítku. Provoz tohoto dokumentu je stál ~4,2 milionu dolarů (400 tisíc hodin GB200). Klíčové poznatky: - Přijetí hořké lekce: Metody, které se zdají být lepší při malých výpočetních rozpočtech, mohou být horší, když je extrapolují na režimy velkých výpočtů. - Obecná moudrost, jako je agregace ztrát, normalizace, algoritmus mimo politiku, nezvyšuje výkonnostní strop RL. - Použití přesnosti FP32 ve finální vrstvě (LM hlava) poskytuje obrovskou podporu v asymptotické odměně. - Delší přemýšlení není plýtvání: delší kontexty se trénují pomaleji, ale dosahují vyšších stropů. Velmi důležitý článek imo. Dobrá práce Meta!