Curiosamente, hicimos muchas de las mismas observaciones en nuestros ejemplos difíciles que son los mejores para el artículo de GRPO del mes pasado Incluyendo el porcentaje aprendible en la explicación del conjunto de entrenamiento para este fenómeno