Актуальні теми
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Ви готові до попереднього навчання в веб-масштабі з RL? 🚀
🔥 Нова робота: РЛП : Попереднє навчання з підкріпленням
Ми перевертаємо звичний рецепт міркувань LLM: замість того, щоб приберегти RL для посттренінгу, ми вносимо дослідження в передтренування.
Основна ідея: ставитися до ланцюжка думок як до дії.
Винагородіть його за рахунок інформаційного виграшу, який він надає для наступного токена:
Це дає щільну винагороду без перевірки, щільну винагороду за звичайний текст без перевірок завдань, без міток, без фільтрації.
Чому це важливо?
🧠 * Моделі думають перед прогнозуванням під час передтренувальної підготовки, а не тільки після вирівнювання.
📈 * Позиційний кредит на кожному токені = стабільний сигнал на повному веб-масштабі.
🔁 * Жодних фільтрів проксі або евристики "easy-token". Тренується на всьому потоці.
Результатів:
На 8-еталонному пакеті math+science (AIME'25, MATH-500, GSM8K, AMC'23, Minerva Math, MMLU, MMLU-Pro, GPQA):
• Qwen3-1.7B-база:
RLP покращує загальний середній показник на 24%!
• Nemotron-Nano-12B-v2-Base:
RLP покращує загальний середній показник на 43%!...

Найкращі
Рейтинг
Вибране