Populaire onderwerpen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Ben je klaar voor web-schaal pre-training met RL? 🚀
🔥 Nieuw paper: RLP: Reinforcement Learning Pre‑training
We draaien het gebruikelijke recept voor redenerende LLMs om: in plaats van RL voor post-training te bewaren, brengen we exploratie in de pretraining.
Kernidee: beschouw chain-of-thought als een actie.
Belonen op basis van de informatiewinst die het biedt voor de volgende token:
Dit geeft een verifier-vrije, dichte beloning op gewone tekst zonder taakcheckers, geen labels, geen filtering.
Waarom is dit belangrijk?
* 🧠 Modellen denken na voordat ze voorspellen tijdens de pretraining, niet alleen na de afstemming.
* 📈 Positiegewijze krediet bij elke token = stabiel signaal op volledige web-schaal.
* 🔁 Geen proxyfilters of "eenvoudige-token" heuristieken. Traint op de hele stroom.
Resultaten:
Op de 8-benchmark wiskunde+wetenschap suite (AIME’25, MATH‑500, GSM8K, AMC’23, Minerva Math, MMLU, MMLU‑Pro, GPQA):
• Qwen3-1.7B-Base:
RLP verbetert het algemene gemiddelde met 24%!
• Nemotron-Nano-12B-v2-Base:
RLP verbetert het algemene gemiddelde met 43%! ...

Boven
Positie
Favorieten