听说来自团队 bitsandbytes 的 Adam 32 位在损失和稳定性方面比 PyTorch Adam 更好。我们所有的计算都是在 fp32 中进行的,因此你拥有的梯度并不重要;计算更为精确。这类似于 DeepSeek 在其 8 位矩阵乘法中的 fp32 累积。