🚨 NuRL: LLM 推論の境界を押し広げる GRPOはLLMの推論を改善しますが、多くの場合、モデルの「コンフォートゾーン」内にあり、ハードサンプル(合格率0%)は解けないままであり、学習信号はゼロです。NuRLでは、自己生成のヒントでLLMを「ナッジ」することで、モデルの学習ゾーン👉を効果的に拡張し、3つのモデルを使用した6つのベンチマークでpass@1の一貫したゲインを上げ、困難なタスクでpass@1024を上げることを示しています。 重要なポイント: 1⃣GRPOは、モデルが正しく解かない問題から学習することはできませんが、NuRLは自己生成の「ヒント」を使用して、難しい問題を学習可能にします 2⃣抽象的で高レベルのヒントが最も効果的ですが、答えについて明らかにしすぎると、実際にパフォーマンスが低下する可能性があります。 3⃣NuRLは、6つのベンチマークと3つのモデル(GRPOよりも+0.8〜1.8%)でパフォーマンスを向上させ、トレーニング中のロールアウトを減らします 4⃣NuRLは、自己生成されたヒント(外部モデルは不要)で動作し、テスト時のスケーリングと組み合わせると、より大きなゲインを示します 5⃣NuRLは上限を引き上げ、困難なデータセット(GPQA、Date Understandingなど)でpass@1024を最大+7.6%向上させます。 🧵