Trendaavat aiheet
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Meta luopui juuri RL-skaalauslaeista: Yksinkertainen sigmoidikäyrä voi ennustaa laajamittaisia RL-tuloksia.
Tämän paperin pyörittäminen maksoi heille ~4,2 miljoonaa dollaria (400 000 GB200 tuntia).
Tärkeimmät huomiot:
- Katkeran opetuksen omaksuminen: Menetelmät, jotka näyttävät paremmilta pienillä laskentabudjeteilla, voivat olla huonompia, kun ne ekstrapoloidaan suuriin laskentajärjestelmiin.
- Yleinen viisaus, kuten häviöiden yhdistäminen, normalisointi, politiikan ulkopuolinen algoritmi, eivät nosta RL:n suorituskyvyn kattoa.
- FP32-tarkkuuden käyttäminen viimeisessä kerroksessa (LM-pää) antaa valtavan lisäyksen asymptoottiseen palkkioon.
- Pidempi ajattelu ei ole tuhlausta: pidemmät kontekstit harjoittelevat hitaammin, mutta saavuttavat korkeammat katot.
Erittäin tärkeä paperi imo. Hyvää työtä Meta!

Johtavat
Rankkaus
Suosikit