Vérifiez le code source Tinker de Thinky. GRPO est sorti REINFORCE avec Adv = Récompense-moyenne(Récompense) est en AUCUNE COUPE modèle ← modèle + η · avantage · ∇ logprob