Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Meta właśnie opublikowało prawa skalowania RL: Prosta krzywa sigmoidalna może przewidzieć wyniki RL na dużą skalę.
Ten artykuł kosztował ich około 4,2 miliona dolarów (400K GB200 godzin) do przeprowadzenia.
Kluczowe wnioski:
- Przyjęcie gorzkiej lekcji: Metody, które wydają się lepsze przy małych budżetach obliczeniowych, mogą być gorsze, gdy są ekstrapolowane do dużych reżimów obliczeniowych.
- Powszechna mądrość, taka jak agregacja strat, normalizacja, algorytmy off-policy, nie podnoszą sufitu wydajności RL.
- Użycie precyzji FP32 w ostatniej warstwie (głowie LM) daje ogromny wzrost w asymptotycznej nagrodzie.
- Dłuższe myślenie nie jest marnotrawstwem: dłuższe konteksty trenują wolniej, ale osiągają wyższe sufity.
Bardzo ważny artykuł moim zdaniem. Dobra robota Meta!

Najlepsze
Ranking
Ulubione