Sprawdź kod źródłowy Tinkera Thinky'ego. GRPO jest na zewnątrz REINFORCE z Adv = Nagroda-średnia(Nagroda) jest w BRAK OGRANICZEŃ model ← model + η · przewaga · ∇ logprob