真是有趣的論文。在快速減少損失後,我們看到減速並遵循“縮放法則”:這是因為在這些步驟中,梯度開始相互衝突。 更新在某種意義上是“爭奪模態容量”,而模型越大,爭奪就越少。這是可以量化的。