Populární témata
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Jste připraveni na předběžný trénink s RL ve webovém měřítku? 🚀
🔥 Nový článek: RLP : Reinforcement Learning Pre-training
Obrátíme obvyklý recept na uvažování LLM: místo toho, abychom si RL šetřili na post-trénink, vnášíme průzkum do předtréninku.
Základní myšlenka: zacházejte s myšlenkovým řetězcem jako s akcí.
Odměňte jej informačním ziskem, který poskytuje pro další token:
To poskytuje hustou odměnu bez ověřovatelů u běžného textu bez kontroly úkolů, bez štítků a filtrování.
Proč na tom záleží?
* 🧠 Modely přemýšlejí před předpovědí během předtréninku, nejen po vyrovnání.
* 📈 Poziční kredit u každého tokenu = stabilní signál v plném webovém měřítku.
* 🔁 Žádné proxy filtry nebo heuristika "easy-token". Vlaky na celém toku.
Výsledky:
Na sadě matematika+věda s 8 úrovněmi (AIME'25, MATH-500, GSM8K, AMC'23, Minerva Math, MMLU, MMLU-Pro, GPQA):
• Qwen3-1.7B-základ:
RLP zlepšuje celkový průměr o 24%!
• Nemotron-nano-12B-v2-Base:
RLP zlepšuje celkový průměr o 43%!...

Top
Hodnocení
Oblíbené