Verificați baza de cod Tinker de la Thinky. GRPO a ieșit ÎNTĂRIRE cu Adv = Reward-mean(Reward) este în FĂRĂ TĂIERE model ← model + η · avantaj · ∇ logprob