Trend-Themen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Meta hat gerade die RL-Skalierungsgesetze veröffentlicht: Eine einfache Sigmoidkurve kann große RL-Ergebnisse vorhersagen.
Dieses Papier hat sie etwa 4,2 Millionen Dollar (400K GB200 Stunden) gekostet.
Wichtige Erkenntnisse:
- Die bittere Lektion annehmen: Methoden, die bei kleinen Rechenbudgets überlegen erscheinen, können bei der Extrapolation auf große Rechenregime schlechter abschneiden.
- Allgemeine Weisheiten wie Verlustaggregation, Normalisierung, Off-Policy-Algorithmen erhöhen nicht die RL-Leistungsgrenze.
- Die Verwendung von FP32-Präzision in der letzten Schicht (LM-Kopf) gibt einen enormen Schub bei der asymptotischen Belohnung.
- Längeres Denken ist nicht verschwenderisch: längere Kontexte trainieren langsamer, erreichen aber höhere Grenzen.
Sehr wichtiges Papier, meiner Meinung nach. Gute Arbeit, Meta!

Top
Ranking
Favoriten