尽管在线对齐速度慢且计算成本高,在线对齐是否是唯一的选择? 受前景理论的启发,我们提供了一个以人为中心的解释,说明为什么在线对齐(例如 GRPO)优于离线对齐(例如 DPO、KTO),并实证展示如何通过 Humanline 这一简单而始终有效的双重设计来缩小在线与离线之间的差距。 💡主要发现:在离线目标上应用 Humanline 可以在指令遵循和数学推理方面与其在线对应物相媲美。不同目标、模型系列和模型规模的一致性提升! 更多内容请见线程 🧵