أسقطت Meta للتو قوانين تحجيم RL: يمكن لمنحنى السيني البسيط أن يتنبأ بنتائج RL على نطاق واسع. كلفتهم هذه الورقة ~ 4.2 مليون دولار (400 ألف جيجابايت 200 ساعة) للتشغيل. الوجبات الرئيسية: - احتضان الدرس المر: يمكن أن تكون الأساليب التي تبدو متفوقة في ميزانيات الحوسبة الصغيرة أسوأ عند استقراءها لأنظمة الحوسبة الكبيرة. - الحكمة الشائعة مثل تجميع الخسائر ، والتطبيع ، والخوارزمية خارج السياسة ، لا ترفع سقف أداء RL. - استخدام دقة FP32 في الطبقة النهائية (رأس LM) يعطي دفعة كبيرة في المكافأة المقاربة. - التفكير الأطول ليس إهدارا: السياقات الأطول تتدرب بشكل أبطأ ولكنها تصل إلى سقوف أعلى. ورقة مهمة جدا IMO. عمل جيد ميتا!