くそー、とても興味深い論文です。急速な損失減少の後、減速が見られ、「スケーリングの法則」に従います:これは、これらのステップで勾配が互いに競合し始めるためです。 アップデートはある意味で「モーダル容量をめぐる戦い」であり、モデルが大きくなるほど戦闘が少なくなります。そしてそれは定量的にそうです。