Faen, veldig interessant papir. Etter rask tapsreduksjon ser vi retardasjon og følger "skaleringsloven": dette er fordi på disse trinnene begynner gradienter å komme i konflikt med hverandre. Oppdateringer "kjemper om modal kapasitet" på en eller annen måte, og større modell mindre kamp er det. og det er kvantifiserbart.