Meta は RL スケーリングの法則を削除しました: 単純なシグモイド曲線で大規模な RL の結果を予測できます。 この論文の運営には~420万ドル(400K GB200時間)の費用がかかりました。 重要なポイント: - 苦い教訓を受け入れる: 小さなコンピューティング バジェットで優れているように見える方法は、大規模なコンピューティング体制に外挿するとさらに悪化する可能性があります。 - 損失の集約、正規化、オフポリシーアルゴリズムなどの常識は、RLパフォーマンスの上限を引き上げないでください。 - 最終層(LMヘッド)でFP32精度を使用すると、漸近報酬が大幅に向上します。 - より長い思考は無駄ではありません: 長いコンテキストはトレーニングが遅くなりますが、より高い上限に達します。 非常に重要な紙です。メタよくやった!