真是有趣的论文。在快速减少损失后,我们看到减速并遵循“缩放法则”:这是因为在这些步骤中,梯度开始相互冲突。 更新在某种意义上是“争夺模态容量”,而模型越大,争夺就越少。这是可以量化的。