A aposta está em construir um sistema de aprendizagem contínua. O que isso significa? A atualização do Cursor é um exemplo prático. Novos dados chegam, o sistema sabe como filtrar as amostras mais valiosas. Em seguida, utiliza RL/outros algoritmos para implementar um ponto de verificação treinado com os dados mencionados.
Pratyush Ranjan Tiwari
Pratyush Ranjan Tiwari23/08/2025
Apresentamos uma receita melhor para coletar dados pós-treinamento ao usar GRPO. Coletar amostras de especialistas é caro, os orçamentos de anotação são limitados. Quais exemplos realmente valem a pena pagar? Descobrimos que focar em amostras difíceis resulta em uma melhoria de 30-40%. 1/7
Cada componente deve ser estudado cuidadosamente primeiro para construir um meta-algoritmo que possa operar tal sistema. Durante uma execução de treinamento, ele pode avaliar se deve continuar ou parar a execução com base em sinais iniciais. Para fazer isso, percepções de centenas de execuções são digeridas em tal sistema.
Esta linha de trabalho inicia este processo para problemas de raciocínio com recompensas verificáveis. Como este é o ambiente mais "estável" para construir um pipeline simples para aprendizagem. As próximas fronteiras seriam LLM-como-juiz e configurações de recompensa atrasada de longo prazo.
1,05K