¿Estás listo para el preentrenamiento a escala web con RL? 🚀 🔥 Nuevo artículo: RLP: Preentrenamiento con Aprendizaje por Refuerzo Invertimos la receta habitual para razonar LLMs: en lugar de reservar RL para el post-entrenamiento, llevamos la exploración al preentrenamiento. Idea central: tratar la cadena de pensamiento como una acción. Recompensarla por la ganancia de información que proporciona para el siguiente token: Esto da una recompensa densa y sin verificador en texto ordinario sin verificadores de tareas, sin etiquetas, sin filtrado. ¿Por qué es importante? * 🧠 Los modelos piensan antes de predecir durante el preentrenamiento, no solo después de la alineación. * 📈 Crédito por posición en cada token = señal estable a escala web completa. * 🔁 Sin filtros proxy ni heurísticas de “token fácil”. Se entrena en toda la corriente. Resultados: En el conjunto de 8 benchmarks de matemáticas y ciencias (AIME’25, MATH‑500, GSM8K, AMC’23, Minerva Math, MMLU, MMLU‑Pro, GPQA): • Qwen3-1.7B-Base: ¡RLP mejora el promedio general en un 24%! • Nemotron-Nano-12B-v2-Base: ¡RLP mejora el promedio general en un 43%! ...