Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Sei pronto per il pre-training su scala web con RL? 🚀
🔥 Nuovo documento: RLP: Pretraining con Apprendimento per Rinforzo
Invertiamo la ricetta abituale per il ragionamento degli LLM: invece di riservare RL per il post-training, portiamo l'esplorazione nel pretraining.
Idea principale: trattare la catena di pensieri come un'azione.
Ricompensala in base al guadagno informativo che fornisce per il prossimo token:
Questo fornisce una ricompensa densa e senza verificatori su testo ordinario, senza controlli di compito, senza etichette, senza filtri.
Perché è importante?
* 🧠 I modelli pensano prima di prevedere durante il pretraining, non solo dopo l'allineamento.
* 📈 Credito posizione per posizione ad ogni token = segnale stabile su scala web completa.
* 🔁 Niente filtri proxy o euristiche "easy-token". Si allena su tutto il flusso.
Risultati:
Sull'8-benchmark suite di matematica+scienza (AIME’25, MATH‑500, GSM8K, AMC’23, Minerva Math, MMLU, MMLU‑Pro, GPQA):
• Qwen3-1.7B-Base:
RLP migliora la media complessiva del 24%!
• Nemotron-Nano-12B-v2-Base:
RLP migliora la media complessiva del 43%! ...

Principali
Ranking
Preferiti