热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
🚨 NuRL:推动 LLM 推理的边界
GRPO 改善了 LLM 的推理能力,但通常在模型的 "舒适区" 内:难样本(通过率为 0%)仍然无法解决,并且没有提供任何学习信号。在 NuRL 中,我们展示了通过自生成提示 "推动" LLM 有效地扩展了模型的学习区域 👉 在 6 个基准上与 3 个模型的一致性提升了 pass@1,并在具有挑战性的任务上提高了 pass@1024!
关键要点:
1⃣GRPO 无法从模型从未正确解决的问题中学习,但 NuRL 使用自生成的 "提示" 使难题可学习
2⃣抽象的高层提示效果最佳——透露过多关于答案的信息实际上会影响性能!
3⃣NuRL 在 6 个基准和 3 个模型上提高了性能(比 GRPO 提高了 +0.8-1.8%),同时在训练期间使用更少的回合
4⃣NuRL 使用自生成的提示(无需外部模型),并在与测试时缩放结合时显示出更大的提升
5⃣NuRL 提高了上限:在具有挑战性的数据集上(例如 GPQA、日期理解)将 pass@1024 提升至 +7.6%
🧵

热门
排行
收藏