Чи є узгодження умов в Інтернеті єдиним шляхом, яким потрібно йти, незважаючи на повільність і обчислювальні витрати? Надихнуті теорією перспектив, ми надаємо орієнтоване на людину пояснення того, чому онлайн-узгодження (наприклад, GRPO) перевершує вирівнювання в автономному режимі (наприклад, DPO, KTO), і емпірично показуємо, як скоротити розрив між онлайном і офлайном за допомогою Humanline, простого, але незмінно ефективного дизайну, що складається з двох частин. 💡Основний висновок: застосування людської лінії поверх офлайн-цілей може працювати нарівні з їхніми онлайн-аналогами як у слідуванні інструкціям, так і в математичних міркуваннях. Стабільні досягнення в різних цілях, сімействах моделей і розмірах моделей! Більше в темах 🧵