🚨 NuRL: Aumentando os Limites do Raciocínio LLM GRPO melhora o raciocínio LLM, mas muitas vezes dentro da "zona de conforto" do modelo: amostras difíceis (com 0% de taxa de aprovação) permanecem insolúveis e não contribuem com sinais de aprendizado. No NuRL, mostramos que "impulsionar" o LLM com dicas geradas por ele mesmo expande efetivamente a zona de aprendizado do modelo 👉 ganhos consistentes em pass@1 em 6 benchmarks com 3 modelos e aumenta pass@1024 em tarefas desafiadoras! Principais conclusões: 1⃣GRPO não consegue aprender com problemas que o modelo nunca resolve corretamente, mas o NuRL usa "dicas" geradas por ele mesmo para tornar problemas difíceis aprendíveis 2⃣Dicas abstratas e de alto nível funcionam melhor—revelar demais sobre a resposta pode, na verdade, prejudicar o desempenho! 3⃣NuRL melhora o desempenho em 6 benchmarks e 3 modelos (+0.8-1.8% em relação ao GRPO), enquanto usa menos rollouts durante o treinamento 4⃣NuRL funciona com dicas geradas por ele mesmo (sem necessidade de modelo externo) e mostra ganhos maiores quando combinado com escalonamento em tempo de teste 5⃣NuRL eleva o limite superior: aumenta pass@1024 em até +7.6% em conjuntos de dados desafiadores (por exemplo, GPQA, Compreensão de Datas) 🧵