Актуальные темы
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
🚨 NuRL: Подталкивание границ рассуждений LLM
GRPO улучшает рассуждения LLM, но часто в пределах "зоны комфорта" модели: сложные примеры (с 0% уровнем прохождения) остаются неразрешимыми и не вносят никаких сигналов для обучения. В NuRL мы показываем, что "подталкивание" LLM с помощью самосгенерированных подсказок эффективно расширяет зону обучения модели 👉 постоянные приросты в pass@1 на 6 бенчмарках с 3 моделями и увеличение pass@1024 на сложных задачах!
Ключевые выводы:
1⃣GRPO не может учиться на проблемах, которые модель никогда не решает правильно, но NuRL использует самосгенерированные "подсказки", чтобы сделать сложные задачи обучаемыми.
2⃣Абстрактные, высокоуровневые подсказки работают лучше — слишком много информации о ответе может на самом деле ухудшить производительность!
3⃣NuRL улучшает производительность на 6 бенчмарках и 3 моделях (+0.8-1.8% по сравнению с GRPO), при этом используя меньшее количество развертываний во время обучения.
4⃣NuRL работает с самосгенерированными подсказками (внешняя модель не нужна) и показывает большие приросты при комбинировании с масштабированием во время тестирования.
5⃣NuRL поднимает верхний предел: он увеличивает pass@1024 до +7.6% на сложных наборах данных (например, GPQA, Понимание дат).
🧵

Топ
Рейтинг
Избранное