🚨 NuRL:推動 LLM 推理的邊界 GRPO 改善了 LLM 的推理,但通常在模型的「舒適區」內:難題(通過率為 0%)仍然無法解決,並且不提供任何學習信號。在 NuRL 中,我們展示了用自生成提示「推動」LLM 有效擴展模型的學習區域 👉 在 6 個基準上對 3 個模型的 pass@1 一致性增益,並在挑戰性任務上提高 pass@1024! 關鍵要點: 1⃣GRPO 無法從模型從未正確解決的問題中學習,但 NuRL 使用自生成的「提示」使難題可學習 2⃣抽象的高層次提示效果最佳——過多透露答案的內容實際上可能會影響性能! 3⃣NuRL 在 6 個基準和 3 個模型上提高了性能(比 GRPO 增加 0.8-1.8%),同時在訓練期間使用更少的回合 4⃣NuRL 使用自生成的提示(不需要外部模型),並在與測試時擴展結合時顯示出更大的增益 5⃣NuRL 提高了上限:在挑戰性數據集(例如 GPQA、日期理解)上將 pass@1024 提高了 +7.6% 🧵