حقيقة ممتعة: لا يعمل RLing معظم نماذج الوزن المفتوح بحجم 8b (مثل qwen 3) مباشرة على مجموعة الاختبار لمعايير الوكيل (مثل TerminalBench). لا يمكنهم تخمين الإجابة الصحيحة ضمن ميزانية أخذ عينات معقولة. لا أطيق الانتظار لرؤية أول نموذج 8b للحصول على بعض الدرجات غير التافهة على هذه المعايير!