المواضيع الرائجة
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
أسقطت Meta للتو قوانين تحجيم RL: يمكن لمنحنى السيني البسيط أن يتنبأ بنتائج RL على نطاق واسع.
كلفتهم هذه الورقة ~ 4.2 مليون دولار (400 ألف جيجابايت 200 ساعة) للتشغيل.
الوجبات الرئيسية:
- احتضان الدرس المر: يمكن أن تكون الأساليب التي تبدو متفوقة في ميزانيات الحوسبة الصغيرة أسوأ عند استقراءها لأنظمة الحوسبة الكبيرة.
- الحكمة الشائعة مثل تجميع الخسائر ، والتطبيع ، والخوارزمية خارج السياسة ، لا ترفع سقف أداء RL.
- استخدام دقة FP32 في الطبقة النهائية (رأس LM) يعطي دفعة كبيرة في المكافأة المقاربة.
- التفكير الأطول ليس إهدارا: السياقات الأطول تتدرب بشكل أبطأ ولكنها تصل إلى سقوف أعلى.
ورقة مهمة جدا IMO. عمل جيد ميتا!

الأفضل
المُتصدِّرة
التطبيقات المفضلة