Ben je klaar voor web-schaal pre-training met RL? 🚀 🔥 Nieuw paper: RLP: Reinforcement Learning Pre‑training We draaien het gebruikelijke recept voor redenerende LLMs om: in plaats van RL voor post-training te bewaren, brengen we exploratie in de pretraining. Kernidee: beschouw chain-of-thought als een actie. Belonen op basis van de informatiewinst die het biedt voor de volgende token: Dit geeft een verifier-vrije, dichte beloning op gewone tekst zonder taakcheckers, geen labels, geen filtering. Waarom is dit belangrijk? * 🧠 Modellen denken na voordat ze voorspellen tijdens de pretraining, niet alleen na de afstemming. * 📈 Positiegewijze krediet bij elke token = stabiel signaal op volledige web-schaal. * 🔁 Geen proxyfilters of "eenvoudige-token" heuristieken. Traint op de hele stroom. Resultaten: Op de 8-benchmark wiskunde+wetenschap suite (AIME’25, MATH‑500, GSM8K, AMC’23, Minerva Math, MMLU, MMLU‑Pro, GPQA): • Qwen3-1.7B-Base: RLP verbetert het algemene gemiddelde met 24%! • Nemotron-Nano-12B-v2-Base: RLP verbetert het algemene gemiddelde met 43%! ...