Kiểm tra mã nguồn Tinker của Thinky. GRPO đã ra REINFORCE với Adv = Reward-mean(Reward) đang có KHÔNG CẮT GIẢM model ← model + η · advantage · ∇ logprob