Meta刚刚发布了RL缩放法则:一个简单的S型曲线可以预测大规模RL结果。 这篇论文花费了他们大约420万美元(40万GB200小时)来运行。 关键要点: - 接受苦涩的教训:在小计算预算下看似优越的方法在外推到大计算环境时可能会变得更糟。 - 像损失聚合、归一化、离线算法这样的常识并不能提高RL性能上限。 - 在最后一层(LM头)使用FP32精度可以大幅提升渐近奖励。 - 更长的思考并不是浪费:更长的上下文训练速度较慢,但能达到更高的上限。 在我看来,这是一篇非常重要的论文。干得好,Meta!