Controleer de Tinker-codebase van Thinky. GRPO is eruit REINFORCE met Adv = Beloning-gemiddelde(Beloning) is erin GEEN CLIPPING model ← model + η · voordeel · ∇ logprob