Sakra, velmi zajímavý článek. Po rychlém snížení ztrát vidíme zpomalení a řídíme se "zákonem škálování": je to proto, že v těchto krocích si gradienty začínají navzájem protiřečit. Aktualizace v jistém smyslu "bojují o modální kapacitu" a větší model méně bojuje. a je to kvantifikovatelné.