Bạn đã sẵn sàng cho việc huấn luyện quy mô web với RL chưa? 🚀 🔥 Bài báo mới: RLP: Huấn luyện Reinforcement Learning Chúng tôi đảo ngược công thức thông thường cho các LLM lý luận: thay vì giữ RL cho giai đoạn sau huấn luyện, chúng tôi đưa việc khám phá vào giai đoạn huấn luyện trước. Ý tưởng cốt lõi: coi chuỗi suy nghĩ như một hành động. Đánh giá nó bằng thông tin mà nó cung cấp cho token tiếp theo: Điều này mang lại phần thưởng dày đặc không cần xác minh trên văn bản thông thường mà không cần kiểm tra nhiệm vụ, không cần nhãn, không cần lọc. Tại sao điều này quan trọng? * 🧠 Các mô hình suy nghĩ trước khi dự đoán trong giai đoạn huấn luyện trước, không chỉ sau khi căn chỉnh. * 📈 Tín hiệu theo vị trí tại mỗi token = tín hiệu ổn định ở quy mô web đầy đủ. * 🔁 Không có bộ lọc proxy hay các phương pháp heuristics “token dễ”. Huấn luyện trên toàn bộ luồng. Kết quả: Trên bộ bài kiểm tra toán+khoa học 8 (AIME’25, MATH‑500, GSM8K, AMC’23, Minerva Math, MMLU, MMLU‑Pro, GPQA): • Qwen3-1.7B-Base: RLP cải thiện trung bình tổng thể lên 24%! • Nemotron-Nano-12B-v2-Base: RLP cải thiện trung bình tổng thể lên 43%! ...