仔细观察,PyTorch 也使用 FP32,但这里是 bnb Adam 更好的真正原因:我们针对浮点数进行了优化,顺序很重要!计算 sqrt(v) + eps*c2 然后再除以 c2 可以避免放大错误,而不是 PyTorch 的 sqrt(v)/c2 + eps。相同的数学, 更好的稳定性!