تحقق من قاعدة بيانات Thinky's Tinker. GRPO خارج التعزيز باستخدام Adv = متوسط المكافأة (المكافأة) موجود لا قصاصة نموذج ← نموذج + η · ميزة · ∇ logprob