Tópicos populares
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Está pronto para o pré-treinamento em escala web com RL? 🚀
🔥 Novo artigo: RLP: Pré-treinamento com Aprendizagem por Reforço
Invertamos a receita habitual para raciocínio em LLMs: em vez de reservar RL para o pós-treinamento, trazemos a exploração para o pré-treinamento.
Ideia central: tratar a cadeia de pensamento como uma ação.
Recompensá-la pelo ganho de informação que fornece para o próximo token:
Isto dá uma recompensa densa, sem verificador, em texto comum, sem verificadores de tarefa, sem rótulos, sem filtragem.
Por que isso é importante?
* 🧠 Os modelos pensam antes de prever durante o pré-treinamento, não apenas após o alinhamento.
* 📈 Crédito posicional em cada token = sinal estável em escala web total.
* 🔁 Sem filtros proxy ou heurísticas de “token fácil”. Treina em todo o fluxo.
Resultados:
Na suíte de matemática+ciência de 8 benchmarks (AIME’25, MATH‑500, GSM8K, AMC’23, Minerva Math, MMLU, MMLU‑Pro, GPQA):
• Qwen3-1.7B-Base:
RLP melhora a média geral em 24%!
• Nemotron-Nano-12B-v2-Base:
RLP melhora a média geral em 43%! ...

Top
Classificação
Favoritos