Prime-RLは最近、トレーニング例のE2Eウォークスルーを含むドキュメントのオーバーホールを行いました! たとえば、SFT ウォームアップとマルチターン RL の 2 ステップを使用して、@willccbb の Wordle 環境で Qwen3-1.7B を 0% から > ~60% の勝率にするようにトレーニングします。1つのGPUで数時間で実行可能