المواضيع الرائجة
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
هل أنت مستعد للتدريب المسبق على نطاق الويب مع RL؟ 🚀
🔥 ورقة جديدة: RLP: التعلم المعزز قبل التدريب
نقلب الوصفة المعتادة لتفكير LLMs: بدلا من حفظ RL لما بعد التدريب ، نجلب الاستكشاف إلى التدريب المسبق.
الفكرة الأساسية: التعامل مع سلسلة الفكر كعمل.
كافأها من خلال المعلومات المكتسبة التي توفرها للرمز المميز التالي:
يمنح هذا مكافأة كثيفة خالية من المدقق على النص العادي بدون مدققات مهام ، ولا تسميات ، ولا تصفية.
لماذا هذا مهم؟
* 🧠 تفكر النماذج قبل التنبؤ أثناء التدريب المسبق ، وليس فقط بعد المحاذاة.
* 📈 الائتمان من حيث المركز في كل رمز مميز = إشارة مستقرة على نطاق الويب الكامل.
* 🔁 لا توجد مرشحات بروكسي أو استدلالات "سهلة الرمز". القطارات على التيار بأكمله.
النتائج:
في مجموعة الرياضيات + العلوم المكونة من 8 معايير (AIME'25 و MATH-500 و GSM8K و AMC'23 و Minerva Math و MMLU و MMLU-Pro و GPQA):
• قاعدة Qwen3-1.7B:
يحسن RLP المتوسط العام بنسبة 24٪!
• قاعدة نيموترون-نانو-12B-v2:
يحسن RLP المتوسط العام بنسبة 43٪!...

الأفضل
المُتصدِّرة
التطبيقات المفضلة