Meta właśnie opublikowało prawa skalowania RL: Prosta krzywa sigmoidalna może przewidzieć wyniki RL na dużą skalę. Ten artykuł kosztował ich około 4,2 miliona dolarów (400K GB200 godzin) do przeprowadzenia. Kluczowe wnioski: - Przyjęcie gorzkiej lekcji: Metody, które wydają się lepsze przy małych budżetach obliczeniowych, mogą być gorsze, gdy są ekstrapolowane do dużych reżimów obliczeniowych. - Powszechna mądrość, taka jak agregacja strat, normalizacja, algorytmy off-policy, nie podnoszą sufitu wydajności RL. - Użycie precyzji FP32 w ostatniej warstwie (głowie LM) daje ogromny wzrost w asymptotycznej nagrodzie. - Dłuższe myślenie nie jest marnotrawstwem: dłuższe konteksty trenują wolniej, ale osiągają wyższe sufity. Bardzo ważny artykuł moim zdaniem. Dobra robota Meta!