🚀 Empolgado para compartilhar nosso trabalho na Bytedance Seed! Knapsack RL: Desbloqueando a Exploração de LLMs via Alocação de Orçamento 🎒 A exploração no treinamento de LLM é crucial, mas cara. A alocação uniforme de rollouts é desperdício: ✅ Tarefas fáceis → sempre resolvidas → 0 gradiente ❌ Tarefas difíceis → sempre falham → 0 gradiente 💡 Nossa ideia: tratar a exploração como um problema de mochila → alocar rollouts onde eles importam mais. ✨ Resultados: 🔼 +20–40% mais gradientes não nulos 🧮 Até 93 rollouts para tarefas difíceis (sem computação extra) 📈 +2–4 pontos em média, +9 ganhos máximos em benchmarks de matemática 💰 ~2× mais barato do que a alocação uniforme 📄 Artigo: