Sei pronto per il pre-training su scala web con RL? 🚀 🔥 Nuovo documento: RLP: Pretraining con Apprendimento per Rinforzo Invertiamo la ricetta abituale per il ragionamento degli LLM: invece di riservare RL per il post-training, portiamo l'esplorazione nel pretraining. Idea principale: trattare la catena di pensieri come un'azione. Ricompensala in base al guadagno informativo che fornisce per il prossimo token: Questo fornisce una ricompensa densa e senza verificatori su testo ordinario, senza controlli di compito, senza etichette, senza filtri. Perché è importante? * 🧠 I modelli pensano prima di prevedere durante il pretraining, non solo dopo l'allineamento. * 📈 Credito posizione per posizione ad ogni token = segnale stabile su scala web completa. * 🔁 Niente filtri proxy o euristiche "easy-token". Si allena su tutto il flusso. Risultati: Sull'8-benchmark suite di matematica+scienza (AIME’25, MATH‑500, GSM8K, AMC’23, Minerva Math, MMLU, MMLU‑Pro, GPQA): • Qwen3-1.7B-Base: RLP migliora la media complessiva del 24%! • Nemotron-Nano-12B-v2-Base: RLP migliora la media complessiva del 43%! ...