Czy jesteś gotowy na pretraining w skali web z RL? 🚀 🔥 Nowy artykuł: RLP: Pretraining z Uczeniem przez Wzmocnienie Odwracamy zwykły przepis na reasoning LLM: zamiast zostawiać RL na post-training, wprowadzamy eksplorację do pretrainingu. Główna idea: traktuj chain-of-thought jako akcję. Nagradzaj ją za zysk informacyjny, jaki przynosi dla następnego tokenu: To daje nagrodę gęstą, wolną od weryfikatorów, na zwykłym tekście bez kontrolerów zadań, bez etykiet, bez filtrowania. Dlaczego to ma znaczenie? * 🧠 Modele myślą przed przewidywaniem podczas pretrainingu, a nie tylko po dostosowaniu. * 📈 Kredyt pozycyjny dla każdego tokenu = stabilny sygnał w pełnej skali web. * 🔁 Brak filtrów pośrednich ani heurystyk „łatwych tokenów”. Trenuje na całym strumieniu. Wyniki: Na zestawie benchmarków 8-matematyka+nauka (AIME’25, MATH-500, GSM8K, AMC’23, Minerva Math, MMLU, MMLU-Pro, GPQA): • Qwen3-1.7B-Base: RLP poprawia ogólną średnią o 24%! • Nemotron-Nano-12B-v2-Base: RLP poprawia ogólną średnią o 43%! ...