仔細觀察,PyTorch 也使用 FP32,但這裡是 bnb Adam 更好的真正原因:我們針對浮點數進行了優化,順序很重要!計算 sqrt(v) + eps*c2 然後再除以 c2 可以避免放大錯誤,而不是 PyTorch 的 sqrt(v)/c2 + eps。相同的數學, 更好的穩定性!