Tópicos em alta
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Você está pronto para o pré-treinamento em escala da Web com RL? 🚀
🔥 Novo artigo: RLP: Pré-treinamento de Aprendizagem por Reforço
Invertemos a receita usual para o raciocínio de LLMs: em vez de guardar RL para pós-treinamento, trazemos a exploração para o pré-treinamento.
Ideia central: tratar a cadeia de pensamento como uma ação.
Recompense-o pelo ganho de informação que ele fornece para o próximo token:
Isso oferece uma recompensa densa e sem verificador em texto comum, sem verificadores de tarefas, sem rótulos, sem filtragem.
Por que isso importa?
* 🧠 Os modelos pensam antes de prever durante o pré-treinamento, não apenas após o alinhamento.
* 📈 Crédito em posição em cada token = sinal estável em escala total da web.
* 🔁 Sem filtros de proxy ou heurística "easy-token". Trens em todo o riacho.
Resultados:
No pacote de matemática + ciência de 8 benchmarks (AIME'25, MATH-500, GSM8K, AMC'23, Minerva Math, MMLU, MMLU-Pro, GPQA):
• Qwen3-1.7B-Base:
RLP melhora a média geral em 24%!
• Base Nemotron-Nano-12B-v2:
O RLP melhora a média geral em 43%!...

Melhores
Classificação
Favoritos