Актуальные темы
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Готовы к веб-масштабному предобучению с RL? 🚀
🔥 Новая статья: RLP: Предобучение с использованием обучения с подкреплением
Мы переворачиваем обычный рецепт для рассуждающих LLM: вместо того, чтобы оставлять RL для постобучения, мы вводим исследование в предобучение.
Основная идея: рассматривать цепочку размышлений как действие.
Награждать её за прирост информации, который она предоставляет для следующего токена:
Это дает награду без проверки верности, плотную награду на обычном тексте без проверок задач, без меток, без фильтрации.
Почему это важно?
* 🧠 Модели думают перед предсказанием во время предобучения, а не только после выравнивания.
* 📈 Кредит по позициям на каждом токене = стабильный сигнал на полном веб-масштабе.
* 🔁 Нет прокси-фильтров или эвристик "легких токенов". Обучается на всем потоке.
Результаты:
На 8-бенчмарков математико-научного набора (AIME’25, MATH‑500, GSM8K, AMC’23, Minerva Math, MMLU, MMLU‑Pro, GPQA):
• Qwen3-1.7B-Base:
RLP улучшает общий средний результат на 24%!
• Nemotron-Nano-12B-v2-Base:
RLP улучшает общий средний результат на 43%!...

Топ
Рейтинг
Избранное