Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Czy jesteś gotowy na pretraining w skali web z RL? 🚀
🔥 Nowy artykuł: RLP: Pretraining z Uczeniem przez Wzmocnienie
Odwracamy zwykły przepis na reasoning LLM: zamiast zostawiać RL na post-training, wprowadzamy eksplorację do pretrainingu.
Główna idea: traktuj chain-of-thought jako akcję.
Nagradzaj ją za zysk informacyjny, jaki przynosi dla następnego tokenu:
To daje nagrodę gęstą, wolną od weryfikatorów, na zwykłym tekście bez kontrolerów zadań, bez etykiet, bez filtrowania.
Dlaczego to ma znaczenie?
* 🧠 Modele myślą przed przewidywaniem podczas pretrainingu, a nie tylko po dostosowaniu.
* 📈 Kredyt pozycyjny dla każdego tokenu = stabilny sygnał w pełnej skali web.
* 🔁 Brak filtrów pośrednich ani heurystyk „łatwych tokenów”. Trenuje na całym strumieniu.
Wyniki:
Na zestawie benchmarków 8-matematyka+nauka (AIME’25, MATH-500, GSM8K, AMC’23, Minerva Math, MMLU, MMLU-Pro, GPQA):
• Qwen3-1.7B-Base:
RLP poprawia ogólną średnią o 24%!
• Nemotron-Nano-12B-v2-Base:
RLP poprawia ogólną średnią o 43%! ...

Najlepsze
Ranking
Ulubione