Subiecte populare
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Sunteți pregătit pentru pre-antrenament la scară web cu RL? 🚀
🔥 Lucrare nouă: RLP: Pre-training pentru învățarea prin întărire
Inversăm rețeta obișnuită pentru raționamentul LLM-urilor: în loc să păstrăm RL pentru post-antrenament, aducem explorarea în pre-antrenament.
Ideea de bază: tratați lanțul de gândire ca pe o acțiune.
Recompensați-l prin câștigul de informații pe care îl oferă pentru următorul token:
Acest lucru oferă o recompensă densă, fără verificator, pe text obișnuit, fără verificatoare de sarcini, fără etichete, fără filtrare.
De ce contează acest lucru?
* 🧠 Modelele se gândesc înainte de a prezice în timpul preantrenamentului, nu doar după aliniere.
* 📈 Credit în funcție de poziție la fiecare token = semnal stabil la scară web.
* 🔁 Fără filtre proxy sau euristică "easy-token". Se antrenează pe întregul flux.
Rezultatele:
Pe suita matematică + știință cu 8 benchmark (AIME'25, MATH-500, GSM8K, AMC'23, Minerva Math, MMLU, MMLU-Pro, GPQA):
• Qwen3-1.7B-Bază:
RLP îmbunătățește media generală cu 24%!
• Nemotron-Nano-12B-v2-Base:
RLP îmbunătățește media generală cu 43%!...

Limită superioară
Clasament
Favorite