Bei näherer Betrachtung verwendet PyTorch ebenfalls FP32, aber hier ist der wahre Grund, warum bnb Adam besser ist: Wir haben für Fließkommazahlen optimiert, die Reihenfolge ist wichtig! Das Berechnen von sqrt(v) + eps*c2 und dann die Division vermeidet die Verstärkung von Fehlern im Vergleich zu PyTorchs sqrt(v)/c2 + eps. Die gleiche Mathematik, bessere Stabilität!