一站式 Web3 探索中心 | 去中心化应用商店 & Web3 线下活动

热门话题

🚨 NuRL：推动 LLM 推理的边界 GRPO 改善了 LLM 的推理能力，但通常在模型的 "舒适区" 内：难样本（通过率为 0%）仍然无法解决，并且没有提供任何学习信号。在 NuRL 中，我们展示了通过自生成提示 "推动" LLM 有效地扩展了模型的学习区域 👉 在 6 个基准上与 3 个模型的一致性提升了 pass@1，并在具有挑战性的任务上提高了 pass@1024！关键要点： 1⃣GRPO 无法从模型从未正确解决的问题中学习，但 NuRL 使用自生成的 "提示" 使难题可学习 2⃣抽象的高层提示效果最佳——透露过多关于答案的信息实际上会影响性能！ 3⃣NuRL 在 6 个基准和 3 个模型上提高了性能（比 GRPO 提高了 +0.8-1.8%），同时在训练期间使用更少的回合 4⃣NuRL 使用自生成的提示（无需外部模型），并在与测试时缩放结合时显示出更大的提升 5⃣NuRL 提高了上限：在具有挑战性的数据集上（例如 GPQA、日期理解）将 pass@1024 提升至 +7.6% 🧵