Verdammtes, sehr interessantes Papier. Nach einer schnellen Reduzierung des Verlusts sehen wir eine Verlangsamung und folgen dem "Skalierungsgesetz": Das liegt daran, dass sich die Gradienten in diesen Schritten gegenseitig widersprechen. Updates "kämpfen um die Modalkapazität" in gewissem Sinne, und je größer das Modell, desto weniger Kämpfe gibt es. Und das ist quantifizierbar.