🚨 NuRL: Розширення меж міркувань LLM
GRPO покращує міркування LLM, але часто в межах «зони комфорту» моделі: жорсткі вибірки (з 0% прохідності) залишаються нерозв'язними та не дають жодних сигналів навчання. У NuRL ми показуємо, що «підштовхування» LLM за допомогою самостійно згенерованих підказок ефективно розширює зону 👉навчання моделі Стабільний приріст у pass@1 на 6 тестах з 3 моделями та підвищує pass@1024 на складних завданнях!
Ключові моменти:
1⃣GRPO не може вчитися на проблемах, які модель ніколи не вирішує правильно, але NuRL використовує самостійно згенеровані «підказки», щоб зробити складні задачі доступними для навчання
2⃣Абстрактні, високорівневі підказки працюють найкраще — розкриття занадто великої кількості відповіді може насправді зашкодити продуктивності!
3⃣NuRL покращує продуктивність за 6 тестами та 3 моделями (+0,8-1,8% порівняно з GRPO), при цьому використовується менша кількість розгортань під час навчання
4⃣NuRL працює з самостійно згенерованими підказками (зовнішня модель не потрібна) і показує більший виграш у поєднанні з масштабуванням під час тестування
5⃣NuRL підвищує верхню межу: він підвищує pass@1024 до +7,6% на складних наборах даних (наприклад, GPQA, Date Understanding)
🧵