Jste připraveni na předběžný trénink s RL ve webovém měřítku? 🚀 🔥 Nový článek: RLP : Reinforcement Learning Pre-training Obrátíme obvyklý recept na uvažování LLM: místo toho, abychom si RL šetřili na post-trénink, vnášíme průzkum do předtréninku. Základní myšlenka: zacházejte s myšlenkovým řetězcem jako s akcí. Odměňte jej informačním ziskem, který poskytuje pro další token: To poskytuje hustou odměnu bez ověřovatelů u běžného textu bez kontroly úkolů, bez štítků a filtrování. Proč na tom záleží? * 🧠 Modely přemýšlejí před předpovědí během předtréninku, nejen po vyrovnání. * 📈 Poziční kredit u každého tokenu = stabilní signál v plném webovém měřítku. * 🔁 Žádné proxy filtry nebo heuristika "easy-token". Vlaky na celém toku. Výsledky: Na sadě matematika+věda s 8 úrovněmi (AIME'25, MATH-500, GSM8K, AMC'23, Minerva Math, MMLU, MMLU-Pro, GPQA): • Qwen3-1.7B-základ: RLP zlepšuje celkový průměr o 24%! • Nemotron-nano-12B-v2-Base: RLP zlepšuje celkový průměr o 43%!...