聽說來自團隊 bitsandbytes 的 Adam 32 位在損失和穩定性方面比 PyTorch Adam 更好。我們所有的計算都是在 fp32 中進行的,因此你擁有的梯度並不重要;計算更為精確。這類似於 DeepSeek 在其 8 位矩陣乘法中的 fp32 累積。