Готовы к веб-масштабному предобучению с RL? 🚀 🔥 Новая статья: RLP: Предобучение с использованием обучения с подкреплением Мы переворачиваем обычный рецепт для рассуждающих LLM: вместо того, чтобы оставлять RL для постобучения, мы вводим исследование в предобучение. Основная идея: рассматривать цепочку размышлений как действие. Награждать её за прирост информации, который она предоставляет для следующего токена: Это дает награду без проверки верности, плотную награду на обычном тексте без проверок задач, без меток, без фильтрации. Почему это важно? * 🧠 Модели думают перед предсказанием во время предобучения, а не только после выравнивания. * 📈 Кредит по позициям на каждом токене = стабильный сигнал на полном веб-масштабе. * 🔁 Нет прокси-фильтров или эвристик "легких токенов". Обучается на всем потоке. Результаты: На 8-бенчмарков математико-научного набора (AIME’25, MATH‑500, GSM8K, AMC’23, Minerva Math, MMLU, MMLU‑Pro, GPQA): • Qwen3-1.7B-Base: RLP улучшает общий средний результат на 24%! • Nemotron-Nano-12B-v2-Base: RLP улучшает общий средний результат на 43%!...