トレンドトピック
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Meta は RL スケーリングの法則を削除しました: 単純なシグモイド曲線で大規模な RL の結果を予測できます。
この論文の運営には~420万ドル(400K GB200時間)の費用がかかりました。
重要なポイント:
- 苦い教訓を受け入れる: 小さなコンピューティング バジェットで優れているように見える方法は、大規模なコンピューティング体制に外挿するとさらに悪化する可能性があります。
- 損失の集約、正規化、オフポリシーアルゴリズムなどの常識は、RLパフォーマンスの上限を引き上げないでください。
- 最終層(LMヘッド)でFP32精度を使用すると、漸近報酬が大幅に向上します。
- より長い思考は無駄ではありません: 長いコンテキストはトレーニングが遅くなりますが、より高い上限に達します。
非常に重要な紙です。メタよくやった!

トップ
ランキング
お気に入り