オンラインアライメントは、時間が遅く、計算コストが高いにもかかわらず、進むべき唯一の道なのでしょうか? プロスペクト理論に触発されて、オンラインアライメント(GRPOなど)がオフラインアライメント(DPO、KTOなど)よりも優れている理由について人間中心の説明を提供し、シンプルでありながら一貫して効果的な2部構成の設計であるHumanlineを使用してオンラインとオフラインのギャップを埋める方法を経験的に示します。 💡主な発見: オフラインの目標の上にヒューマンラインを適用すると、指示に従うことと数学的推論の両方でオンラインの対応物と同等のパフォーマンスを発揮できます。さまざまな対物レンズ、モデルファミリー、モデルサイズにわたって一観した利益が得られます。 スレッド🧵の詳細