gute Arbeit - exploratives RL ohne handgefertigte Verifier ist die offensichtliche nächste Skalierungswette