dobra robota - eksploracyjne RL bez ręcznie tworzonych weryfikatorów to oczywisty następny zakład na skalowanie