Fan, mycket intressant papper. Efter snabb förlustminskning ser vi retardation och följer "skalningslagen": detta beror på att vid dessa steg börjar gradienter komma i konflikt med varandra. Uppdateringar är "fightining for modal capacity" i någon mening, och ju större modell desto mindre strider finns det. Och det är kvantifierbart.