Meta hat gerade die RL-Skalierungsgesetze veröffentlicht: Eine einfache Sigmoidkurve kann große RL-Ergebnisse vorhersagen. Dieses Papier hat sie etwa 4,2 Millionen Dollar (400K GB200 Stunden) gekostet. Wichtige Erkenntnisse: - Die bittere Lektion annehmen: Methoden, die bei kleinen Rechenbudgets überlegen erscheinen, können bei der Extrapolation auf große Rechenregime schlechter abschneiden. - Allgemeine Weisheiten wie Verlustaggregation, Normalisierung, Off-Policy-Algorithmen erhöhen nicht die RL-Leistungsgrenze. - Die Verwendung von FP32-Präzision in der letzten Schicht (LM-Kopf) gibt einen enormen Schub bei der asymptotischen Belohnung. - Längeres Denken ist nicht verschwenderisch: längere Kontexte trainieren langsamer, erreichen aber höhere Grenzen. Sehr wichtiges Papier, meiner Meinung nach. Gute Arbeit, Meta!