Meta 剛剛發布了強化學習(RL)縮放法則:一個簡單的 S 型曲線可以預測大規模 RL 的結果。 這篇論文花費了他們約 420 萬美元(400K GB200 小時)來運行。 主要收穫: - 接受苦澀的教訓:在小計算預算下看似優越的方法在擴展到大計算範疇時可能會變得更糟。 - 像損失聚合、正規化、離線算法這樣的常識並不會提高 RL 的性能上限。 - 在最後一層(LM 頭)使用 FP32 精度可以大幅提升漸近獎勵。 - 更長的思考並不是浪費:更長的上下文訓練速度較慢,但能達到更高的上限。 在我看來,這是一篇非常重要的論文。幹得好,Meta!