Curiosamente, hicimos muchas de las mismas observaciones en nuestros ejemplos duros son los mejores para el artículo GRPO del mes pasado Incluir el porcentaje aprendible en la explicación del conjunto de entrenamiento para este fenómeno