Trendande ämnen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Är du redo för förträning i webbskala med RL? 🚀
🔥 Nytt paper: RLP : Reinforcement Learning Pre-training
Vi vänder på det vanliga receptet för att resonera LLM: istället för att spara RL till efterträningen tar vi med utforskning i förträningen.
Grundidé: behandla tankekedja som en handling.
Belöna den med den informationsvinst den ger för nästa token:
Detta ger en verifierarfri, tät belöning på vanlig text utan uppgiftskontroller, inga etiketter, ingen filtrering.
Varför är detta viktigt?
* 🧠 Modeller tänker innan de förutsäger under förträningen, inte bara efter anpassningen.
* 📈 Positionsmässig kredit vid varje token = stabil signal vid full webbskala.
* 🔁 Inga proxyfilter eller "easy-token" heuristik. Tåg på hela bäcken.
Resultat:
På 8-benchmark matematik+naturvetenskapssviten (AIME'25, MATH-500, GSM8K, AMC'23, Minerva Math, MMLU, MMLU-Pro, GPQA):
• Qwen3-1.7B-bas:
RLP förbättrar det totala genomsnittet med 24%!
• Nemotron-Nano-12B-v2-bas:
RLP förbättrar det totala genomsnittet med 43%!...

Topp
Rankning
Favoriter