Er du klar for fortrening på nettskala med RL? 🚀 🔥 Ny artikkel: RLP: Forsterkende læring før trening Vi snur den vanlige oppskriften på resonnerende LLM-er: i stedet for å spare RL til ettertrening, tar vi med oss utforskning inn i pre-training. Kjerneidé: behandle tankekjede som en handling. Belønn den med informasjonsgevinsten den gir for det neste tokenet: Dette gir en verifikatorfri, tett belønning på vanlig tekst uten oppgavesjekkere, ingen etiketter, ingen filtrering. Hvorfor er dette viktig? * 🧠 Modeller tenker før de forutsier under fortrening, ikke bare etter justering. * 📈 Posisjonsmessig kreditt ved hvert token = stabilt signal i full nettskala. * 🔁 Ingen proxy-filtre eller "easy-token"-heuristikk. Tog på hele bekken. Resultater: På 8-benchmark matematikk + vitenskapspakken (AIME'25, MATH-500, GSM8K, AMC'23, Minerva Math, MMLU, MMLU-Pro, GPQA): • Qwen3-1.7B-base: RLP forbedrer det totale gjennomsnittet med 24 %! • Nemotron-Nano-12B-V2-Base: RLP forbedrer det totale gjennomsnittet med 43 %!...