Интересно, что мы сделали много тех же наблюдений в наших сложных примерах, которые являются лучшими для статьи GRPO за прошлый месяц. Включая обучаемый процент в объяснение этого явления в тренировочном наборе.