¿Está listo para el entrenamiento previo a escala web con RL? 🚀 🔥 Nuevo artículo: RLP : Pre-entrenamiento de aprendizaje por refuerzo Le damos la vuelta a la receta habitual para razonar los LLM: en lugar de guardar RL para el entrenamiento posterior, traemos la exploración al entrenamiento previo. Idea central: tratar la cadena de pensamiento como una acción. Recompénselo con la ganancia de información que proporciona para el siguiente token: Esto proporciona una recompensa densa y sin verificador en texto ordinario sin verificadores de tareas, sin etiquetas, sin filtrado. ¿Por qué es importante? 🧠 * Los modelos piensan antes de predecir durante el preentrenamiento, no solo después de la alineación. 📈 * Crédito por posición en cada token = señal estable a escala web completa. 🔁 * Sin filtros de proxy ni heurística de "token fácil". Trenes en todo el arroyo. Resultados: En la suite de matemáticas + ciencias de 8 puntos de referencia (AIME'25, MATH-500, GSM8K, AMC'23, Minerva Math, MMLU, MMLU-Pro, GPQA): • Base Qwen3-1.7B: ¡RLP mejora el promedio general en un 24%! • Base Nemotron-Nano-12B-v2: ¡RLP mejora el promedio general en un 43%!...