Verifique a base de código Tinker da Thinky. GRPO está fora REINFORCE com Adv = Recompensa-média(Recompensa) está dentro SEM CLIPPING modelo ← modelo + η · vantagem · ∇ logprob