Är du redo för förträning i webbskala med RL? 🚀 🔥 Nytt paper: RLP : Reinforcement Learning Pre-training Vi vänder på det vanliga receptet för att resonera LLM: istället för att spara RL till efterträningen tar vi med utforskning i förträningen. Grundidé: behandla tankekedja som en handling. Belöna den med den informationsvinst den ger för nästa token: Detta ger en verifierarfri, tät belöning på vanlig text utan uppgiftskontroller, inga etiketter, ingen filtrering. Varför är detta viktigt? * 🧠 Modeller tänker innan de förutsäger under förträningen, inte bara efter anpassningen. * 📈 Positionsmässig kredit vid varje token = stabil signal vid full webbskala. * 🔁 Inga proxyfilter eller "easy-token" heuristik. Tåg på hela bäcken. Resultat: På 8-benchmark matematik+naturvetenskapssviten (AIME'25, MATH-500, GSM8K, AMC'23, Minerva Math, MMLU, MMLU-Pro, GPQA): • Qwen3-1.7B-bas: RLP förbättrar det totala genomsnittet med 24%! • Nemotron-Nano-12B-v2-bas: RLP förbättrar det totala genomsnittet med 43%!...