🚨 NuRL:推动 LLM 推理的边界 GRPO 改善了 LLM 的推理能力,但通常在模型的 "舒适区" 内:难样本(通过率为 0%)仍然无法解决,并且没有提供任何学习信号。在 NuRL 中,我们展示了通过自生成提示 "推动" LLM 有效地扩展了模型的学习区域 👉 在 6 个基准上与 3 个模型的一致性提升了 pass@1,并在具有挑战性的任务上提高了 pass@1024! 关键要点: 1⃣GRPO 无法从模型从未正确解决的问题中学习,但 NuRL 使用自生成的 "提示" 使难题可学习 2⃣抽象的高层提示效果最佳——透露过多关于答案的信息实际上会影响性能! 3⃣NuRL 在 6 个基准和 3 个模型上提高了性能(比 GRPO 提高了 +0.8-1.8%),同时在训练期间使用更少的回合 4⃣NuRL 使用自生成的提示(无需外部模型),并在与测试时缩放结合时显示出更大的提升 5⃣NuRL 提高了上限:在具有挑战性的数据集上(例如 GPQA、日期理解)将 pass@1024 提升至 +7.6% 🧵