有趣的是,我们在上个月的GRPO论文中对硬例子做出了许多相同的观察。 包括在训练集解释这一现象时的可学习百分比。