Liệu việc căn chỉnh trực tuyến có phải là con đường duy nhất để đi mặc dù chậm và tốn kém về tính toán? Lấy cảm hứng từ lý thuyết triển vọng, chúng tôi cung cấp một giải thích tập trung vào con người về lý do tại sao căn chỉnh trực tuyến (ví dụ: GRPO) lại vượt trội hơn so với căn chỉnh ngoại tuyến (ví dụ: DPO, KTO) và chứng minh thực nghiệm cách thu hẹp khoảng cách trực tuyến-ngoại tuyến với Humanline, một thiết kế đơn giản nhưng luôn hiệu quả với hai phần. 💡Phát hiện chính: Áp dụng humanline trên các mục tiêu ngoại tuyến có thể hoạt động ngang bằng với các đối tác trực tuyến của chúng trên cả việc theo dõi hướng dẫn và lý luận toán học. Những lợi ích nhất quán trên các mục tiêu khác nhau, các gia đình mô hình và kích thước mô hình! Thêm thông tin trong các chủ đề 🧵