Meta luopui juuri RL-skaalauslaeista: Yksinkertainen sigmoidikäyrä voi ennustaa laajamittaisia RL-tuloksia. Tämän paperin pyörittäminen maksoi heille ~4,2 miljoonaa dollaria (400 000 GB200 tuntia). Tärkeimmät huomiot: - Katkeran opetuksen omaksuminen: Menetelmät, jotka näyttävät paremmilta pienillä laskentabudjeteilla, voivat olla huonompia, kun ne ekstrapoloidaan suuriin laskentajärjestelmiin. - Yleinen viisaus, kuten häviöiden yhdistäminen, normalisointi, politiikan ulkopuolinen algoritmi, eivät nosta RL:n suorituskyvyn kattoa. - FP32-tarkkuuden käyttäminen viimeisessä kerroksessa (LM-pää) antaa valtavan lisäyksen asymptoottiseen palkkioon. - Pidempi ajattelu ei ole tuhlausta: pidemmät kontekstit harjoittelevat hitaammin, mutta saavuttavat korkeammat katot. Erittäin tärkeä paperi imo. Hyvää työtä Meta!