La naiba, o lucrare foarte interesantă. După reducerea rapidă a pierderilor, vedem decelerare și urmăm "legea scalării": acest lucru se datorează faptului că la acești pași, gradientele încep să intre în conflict între ele. Actualizările sunt "luptă pentru capacitatea modală" într-un anumit sens, și mai mare modelul mai puțin luptă există. și este cuantificabil așa.