Está pronto para o pré-treinamento em escala web com RL? 🚀 🔥 Novo artigo: RLP: Pré-treinamento com Aprendizagem por Reforço Invertamos a receita habitual para raciocínio em LLMs: em vez de reservar RL para o pós-treinamento, trazemos a exploração para o pré-treinamento. Ideia central: tratar a cadeia de pensamento como uma ação. Recompensá-la pelo ganho de informação que fornece para o próximo token: Isto dá uma recompensa densa, sem verificador, em texto comum, sem verificadores de tarefa, sem rótulos, sem filtragem. Por que isso é importante? * 🧠 Os modelos pensam antes de prever durante o pré-treinamento, não apenas após o alinhamento. * 📈 Crédito posicional em cada token = sinal estável em escala web total. * 🔁 Sem filtros proxy ou heurísticas de “token fácil”. Treina em todo o fluxo. Resultados: Na suíte de matemática+ciência de 8 benchmarks (AIME’25, MATH‑500, GSM8K, AMC’23, Minerva Math, MMLU, MMLU‑Pro, GPQA): • Qwen3-1.7B-Base: RLP melhora a média geral em 24%! • Nemotron-Nano-12B-v2-Base: RLP melhora a média geral em 43%! ...