Bist du bereit für web-großes Pretraining mit RL? 🚀 🔥 Neues Papier: RLP: Reinforcement Learning Pre‑training Wir drehen das übliche Rezept für das Denken von LLMs um: Statt RL für das Post-Training zu reservieren, bringen wir Exploration ins Pretraining. Kernidee: Behandle Chain-of-Thought als eine Aktion. Belohne es durch den Informationsgewinn, den es für das nächste Token bietet: Das gibt eine verifier-freie, dichte Belohnung auf gewöhnlichem Text ohne Aufgabenprüfer, ohne Labels, ohne Filterung. Warum ist das wichtig? * 🧠 Modelle denken vor der Vorhersage während des Pretrainings, nicht nur nach der Ausrichtung. * 📈 Positionsweise Anerkennung bei jedem Token = stabiles Signal im vollen Web-Maßstab. * 🔁 Keine Proxy-Filter oder "einfache Token"-Heuristiken. Trainiert auf dem gesamten Stream. Ergebnisse: Bei der 8-Benchmark Mathematik+Wissenschaft Suite (AIME’25, MATH‑500, GSM8K, AMC’23, Minerva Math, MMLU, MMLU‑Pro, GPQA): • Qwen3-1.7B-Base: RLP verbessert den Gesamtdurchschnitt um 24%! • Nemotron-Nano-12B-v2-Base: RLP verbessert den Gesamtdurchschnitt um 43%! ...