Você está pronto para o pré-treinamento em escala da Web com RL? 🚀 🔥 Novo artigo: RLP: Pré-treinamento de Aprendizagem por Reforço Invertemos a receita usual para o raciocínio de LLMs: em vez de guardar RL para pós-treinamento, trazemos a exploração para o pré-treinamento. Ideia central: tratar a cadeia de pensamento como uma ação. Recompense-o pelo ganho de informação que ele fornece para o próximo token: Isso oferece uma recompensa densa e sem verificador em texto comum, sem verificadores de tarefas, sem rótulos, sem filtragem. Por que isso importa? * 🧠 Os modelos pensam antes de prever durante o pré-treinamento, não apenas após o alinhamento. * 📈 Crédito em posição em cada token = sinal estável em escala total da web. * 🔁 Sem filtros de proxy ou heurística "easy-token". Trens em todo o riacho. Resultados: No pacote de matemática + ciência de 8 benchmarks (AIME'25, MATH-500, GSM8K, AMC'23, Minerva Math, MMLU, MMLU-Pro, GPQA): • Qwen3-1.7B-Base: RLP melhora a média geral em 24%! • Base Nemotron-Nano-12B-v2: O RLP melhora a média geral em 43%!...