Sunteți pregătit pentru pre-antrenament la scară web cu RL? 🚀 🔥 Lucrare nouă: RLP: Pre-training pentru învățarea prin întărire Inversăm rețeta obișnuită pentru raționamentul LLM-urilor: în loc să păstrăm RL pentru post-antrenament, aducem explorarea în pre-antrenament. Ideea de bază: tratați lanțul de gândire ca pe o acțiune. Recompensați-l prin câștigul de informații pe care îl oferă pentru următorul token: Acest lucru oferă o recompensă densă, fără verificator, pe text obișnuit, fără verificatoare de sarcini, fără etichete, fără filtrare. De ce contează acest lucru? * 🧠 Modelele se gândesc înainte de a prezice în timpul preantrenamentului, nu doar după aliniere. * 📈 Credit în funcție de poziție la fiecare token = semnal stabil la scară web. * 🔁 Fără filtre proxy sau euristică "easy-token". Se antrenează pe întregul flux. Rezultatele: Pe suita matematică + știință cu 8 benchmark (AIME'25, MATH-500, GSM8K, AMC'23, Minerva Math, MMLU, MMLU-Pro, GPQA): • Qwen3-1.7B-Bază: RLP îmbunătățește media generală cu 24%! • Nemotron-Nano-12B-v2-Base: RLP îmbunătățește media generală cu 43%!...