Bei näherer Betrachtung verwendet PyTorch ebenfalls FP32, aber hier ist der wahre Grund, warum bnb Adam besser ist: Wir haben für Fließkommazahlen optimiert, die Reihenfolge ist wichtig! Das Berechnen von sqrt(v) + eps*c2 und dann die Division vermeidet die Verstärkung von Fehlern im Vergleich zu PyTorchs sqrt(v)/c2 + eps. Die gleiche Mathematik, bessere Stabilität!
Ich habe von einem Team namens bitsandbytes gehört, dass Adam 32-Bit eine bessere Verlust- und Stabilitätsleistung als PyTorch Adam bietet. Wir führen alle Berechnungen in fp32 durch, daher spielt es keine Rolle, welche Gradienten Sie haben; die Berechnungen sind präziser. Dies ähnelt der fp32-Akkumulation von DeepSeek in ihren 8-Bit-Matmuls.
Ich habe von einem Team namens bitsandbytes gehört, dass Adam 32-Bit eine bessere Verlust- und Stabilitätsleistung als PyTorch Adam bietet. Wir führen alle Berechnungen in fp32 durch, daher spielt es keine Rolle, welche Gradienten Sie haben; die Berechnungen sind präziser. Dies ähnelt der fp32-Akkumulation von DeepSeek in ihren 8-Bit-Matmuls.