Магазин DApp | Web3-центр мероприятий и игр

Актуальные темы

🚨 NuRL: Подталкивание границ рассуждений LLM GRPO улучшает рассуждения LLM, но часто в пределах "зоны комфорта" модели: сложные примеры (с 0% уровнем прохождения) остаются неразрешимыми и не вносят никаких сигналов для обучения. В NuRL мы показываем, что "подталкивание" LLM с помощью самосгенерированных подсказок эффективно расширяет зону обучения модели 👉 постоянные приросты в pass@1 на 6 бенчмарках с 3 моделями и увеличение pass@1024 на сложных задачах! Ключевые выводы: 1⃣GRPO не может учиться на проблемах, которые модель никогда не решает правильно, но NuRL использует самосгенерированные "подсказки", чтобы сделать сложные задачи обучаемыми. 2⃣Абстрактные, высокоуровневые подсказки работают лучше — слишком много информации о ответе может на самом деле ухудшить производительность! 3⃣NuRL улучшает производительность на 6 бенчмарках и 3 моделях (+0.8-1.8% по сравнению с GRPO), при этом используя меньшее количество развертываний во время обучения. 4⃣NuRL работает с самосгенерированными подсказками (внешняя модель не нужна) и показывает большие приросты при комбинировании с масштабированием во время тестирования. 5⃣NuRL поднимает верхний предел: он увеличивает pass@1024 до +7.6% на сложных наборах данных (например, GPQA, Понимание дат). 🧵

Топ

Рейтинг

Избранное