Verifique a base de código do Tinker do Thinky. GRPO está fora de produção REFORÇAR com Adv = Reward-mean(Reward) está em SEM CLIPPING modelo ← modelo + η · vantagem · ∇ logprob