Tendencias del momento
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
¿Estás listo para el preentrenamiento a escala web con RL? 🚀
🔥 Nuevo artículo: RLP: Preentrenamiento con Aprendizaje por Refuerzo
Invertimos la receta habitual para razonar LLMs: en lugar de reservar RL para el post-entrenamiento, llevamos la exploración al preentrenamiento.
Idea central: tratar la cadena de pensamiento como una acción.
Recompensarla por la ganancia de información que proporciona para el siguiente token:
Esto da una recompensa densa y sin verificador en texto ordinario sin verificadores de tareas, sin etiquetas, sin filtrado.
¿Por qué es importante?
* 🧠 Los modelos piensan antes de predecir durante el preentrenamiento, no solo después de la alineación.
* 📈 Crédito por posición en cada token = señal estable a escala web completa.
* 🔁 Sin filtros proxy ni heurísticas de “token fácil”. Se entrena en toda la corriente.
Resultados:
En el conjunto de 8 benchmarks de matemáticas y ciencias (AIME’25, MATH‑500, GSM8K, AMC’23, Minerva Math, MMLU, MMLU‑Pro, GPQA):
• Qwen3-1.7B-Base:
¡RLP mejora el promedio general en un 24%!
• Nemotron-Nano-12B-v2-Base:
¡RLP mejora el promedio general en un 43%! ...

Parte superior
Clasificación
Favoritos