Cavolo, documento molto interessante. Dopo una rapida riduzione delle perdite, vediamo una decelerazione e seguiamo la "legge di scalabilità": questo accade perché a questi passaggi, i gradienti iniziano a confliggere tra loro. Gli aggiornamenti stanno "lottando per la capacità modale" in un certo senso, e più grande è il modello, meno ci sono conflitti. Ed è quantificabile.