🚨 NuRL: Đẩy ranh giới của lý luận LLM GRPO cải thiện lý luận LLM, nhưng thường trong "vùng thoải mái" của mô hình: các mẫu khó (với tỷ lệ vượt qua 0%) vẫn không thể giải quyết và không đóng góp tín hiệu học tập nào. Trong NuRL, chúng tôi cho thấy rằng việc "đẩy" LLM với các gợi ý tự tạo hiệu quả mở rộng vùng học tập của mô hình 👉 tăng cường nhất quán trong pass@1 trên 6 tiêu chuẩn với 3 mô hình & nâng cao pass@1024 trên các nhiệm vụ khó khăn! Những điểm chính: 1⃣GRPO không thể học từ các vấn đề mà mô hình không bao giờ giải quyết đúng, nhưng NuRL sử dụng "gợi ý" tự tạo để làm cho các vấn đề khó có thể học được 2⃣Gợi ý trừu tượng, cấp cao hoạt động tốt nhất—tiết lộ quá nhiều về câu trả lời thực sự có thể làm giảm hiệu suất! 3⃣NuRL cải thiện hiệu suất trên 6 tiêu chuẩn và 3 mô hình (+0.8-1.8% so với GRPO), trong khi sử dụng ít lần triển khai hơn trong quá trình đào tạo 4⃣NuRL hoạt động với các gợi ý tự tạo (không cần mô hình bên ngoài) và cho thấy sự gia tăng lớn hơn khi kết hợp với việc mở rộng thời gian kiểm tra 5⃣NuRL nâng cao giới hạn tối đa: nó tăng cường pass@1024 lên tới +7.6% trên các tập dữ liệu khó khăn (ví dụ: GPQA, Hiểu biết về Ngày) 🧵