有趣的是,我們在上個月的 GRPO 論文中對於困難範例做出了許多相同的觀察。 包括在訓練集解釋這一現象時的可學習百分比。