Trend-Themen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Bist du bereit für web-großes Pretraining mit RL? 🚀
🔥 Neues Papier: RLP: Reinforcement Learning Pre‑training
Wir drehen das übliche Rezept für das Denken von LLMs um: Statt RL für das Post-Training zu reservieren, bringen wir Exploration ins Pretraining.
Kernidee: Behandle Chain-of-Thought als eine Aktion.
Belohne es durch den Informationsgewinn, den es für das nächste Token bietet:
Das gibt eine verifier-freie, dichte Belohnung auf gewöhnlichem Text ohne Aufgabenprüfer, ohne Labels, ohne Filterung.
Warum ist das wichtig?
* 🧠 Modelle denken vor der Vorhersage während des Pretrainings, nicht nur nach der Ausrichtung.
* 📈 Positionsweise Anerkennung bei jedem Token = stabiles Signal im vollen Web-Maßstab.
* 🔁 Keine Proxy-Filter oder "einfache Token"-Heuristiken. Trainiert auf dem gesamten Stream.
Ergebnisse:
Bei der 8-Benchmark Mathematik+Wissenschaft Suite (AIME’25, MATH‑500, GSM8K, AMC’23, Minerva Math, MMLU, MMLU‑Pro, GPQA):
• Qwen3-1.7B-Base:
RLP verbessert den Gesamtdurchschnitt um 24%!
• Nemotron-Nano-12B-v2-Base:
RLP verbessert den Gesamtdurchschnitt um 43%! ...

Top
Ranking
Favoriten