儘管在線對齊速度慢且計算成本高,這是否是唯一的道路? 受到前景理論的啟發,我們提供了一個以人為中心的解釋,說明為什麼在線對齊(例如 GRPO)優於離線對齊(例如 DPO、KTO),並實證展示如何通過 Humanline 這一簡單但始終有效的雙部分設計來縮小在線與離線之間的差距。 💡主要發現:在離線目標之上應用 Humanline 可以在指令遵循和數學推理方面與其在線對應物表現相當。不同目標、模型系列和模型大小之間的一致增益! 更多內容在討論串中 🧵