هل أنت مستعد للتدريب المسبق على نطاق الويب مع RL؟ 🚀 🔥 ورقة جديدة: RLP: التعلم المعزز قبل التدريب نقلب الوصفة المعتادة لتفكير LLMs: بدلا من حفظ RL لما بعد التدريب ، نجلب الاستكشاف إلى التدريب المسبق. الفكرة الأساسية: التعامل مع سلسلة الفكر كعمل. كافأها من خلال المعلومات المكتسبة التي توفرها للرمز المميز التالي: يمنح هذا مكافأة كثيفة خالية من المدقق على النص العادي بدون مدققات مهام ، ولا تسميات ، ولا تصفية. لماذا هذا مهم؟ * 🧠 تفكر النماذج قبل التنبؤ أثناء التدريب المسبق ، وليس فقط بعد المحاذاة. * 📈 الائتمان من حيث المركز في كل رمز مميز = إشارة مستقرة على نطاق الويب الكامل. * 🔁 لا توجد مرشحات بروكسي أو استدلالات "سهلة الرمز". القطارات على التيار بأكمله. النتائج: في مجموعة الرياضيات + العلوم المكونة من 8 معايير (AIME'25 و MATH-500 و GSM8K و AMC'23 و Minerva Math و MMLU و MMLU-Pro و GPQA): • قاعدة Qwen3-1.7B: يحسن RLP المتوسط العام بنسبة 24٪! • قاعدة نيموترون-نانو-12B-v2: يحسن RLP المتوسط العام بنسبة 43٪!...