Droga, artigo muito interessante. Após a rápida redução da perda, vemos a desaceleração e seguimos a "lei de escala": isso ocorre porque, nessas etapas, os gradientes começam a entrar em conflito uns com os outros. As atualizações estão 'lutando pela capacidade modal' em certo sentido, e quanto maior o modelo, menos lutas existem. e é quantificável.