نظرا لأن الجميع يتحدث عن RL Environments و GRPO الآن ولكن لا أحد يعرف كيف يعمل ، فقد اعتقدنا أنه سيكون من الرائع إنشاء فيديو توضيحي + رمز يمكنك تشغيله: هذا مثال على استخدام GRPO لتدريب Qwen 2.5 للعب 2048 (رمز في مؤشر تطريع): 🧵
‏‎93.72‏K