🚨 NuRL: Cutucando os limites do raciocínio LLM O GRPO melhora o raciocínio do LLM, mas muitas vezes dentro da "zona de conforto" do modelo: amostras duras (com 0% de taxa de aprovação) permanecem insolúveis e contribuem com zero sinais de aprendizado. No NuRL, mostramos que "cutucar" o LLM com dicas autogeradas expande efetivamente os ganhos consistentes da zona 👉de aprendizado do modelo em pass@1 em 6 benchmarks com 3 modelos e aumenta pass@1024 em tarefas desafiadoras! Principais conclusões: 1⃣O GRPO não pode aprender com problemas que o modelo nunca resolve corretamente, mas o NuRL usa "dicas" autogeradas para tornar os problemas difíceis que podem ser aprendidos 2⃣Dicas abstratas e de alto nível funcionam melhor - revelar muito sobre a resposta pode realmente prejudicar o desempenho! 3⃣O NuRL melhora o desempenho em 6 benchmarks e 3 modelos (+0,8-1,8% em relação ao GRPO), enquanto usa menos implementações durante o treinamento 4⃣O NuRL funciona com dicas autogeradas (nenhum modelo externo necessário) e mostra ganhos maiores quando combinado com o dimensionamento de tempo de teste 5⃣O NuRL aumenta o limite superior: aumenta o pass@1024 em até +7,6% em conjuntos de dados desafiadores (por exemplo, GPQA, Date Understanding) 🧵