Tópicos populares
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
🚨 NuRL: Aumentando os Limites do Raciocínio LLM
GRPO melhora o raciocínio LLM, mas muitas vezes dentro da "zona de conforto" do modelo: amostras difíceis (com 0% de taxa de aprovação) permanecem insolúveis e não contribuem com sinais de aprendizado. No NuRL, mostramos que "impulsionar" o LLM com dicas geradas por ele mesmo expande efetivamente a zona de aprendizado do modelo 👉 ganhos consistentes em pass@1 em 6 benchmarks com 3 modelos e aumenta pass@1024 em tarefas desafiadoras!
Principais conclusões:
1⃣GRPO não consegue aprender com problemas que o modelo nunca resolve corretamente, mas o NuRL usa "dicas" geradas por ele mesmo para tornar problemas difíceis aprendíveis
2⃣Dicas abstratas e de alto nível funcionam melhor—revelar demais sobre a resposta pode, na verdade, prejudicar o desempenho!
3⃣NuRL melhora o desempenho em 6 benchmarks e 3 modelos (+0.8-1.8% em relação ao GRPO), enquanto usa menos rollouts durante o treinamento
4⃣NuRL funciona com dicas geradas por ele mesmo (sem necessidade de modelo externo) e mostra ganhos maiores quando combinado com escalonamento em tempo de teste
5⃣NuRL eleva o limite superior: aumenta pass@1024 em até +7.6% em conjuntos de dados desafiadores (por exemplo, GPQA, Compreensão de Datas)
🧵

Top
Classificação
Favoritos