Hitto, erittäin mielenkiintoinen paperi. Nopean häviön vähentämisen jälkeen näemme hidastumisen ja noudatamme "skaalauslakia": Tämä johtuu siitä, että näissä vaiheissa gradientit alkavat olla ristiriidassa keskenään. Päivitykset "taistelevat modaalisesta kapasiteetista" jossain mielessä, ja mitä suurempi malli, vähemmän taisteluja on. ja se on määrällisesti niin.