Mendengar dari tim bitsandbytes Adam 32-bit menghasilkan kerugian dan stabilitas yang lebih baik daripada PyTorch Adam. Kami melakukan semua perhitungan di fp32, jadi tidak masalah gradien apa yang Anda miliki; perhitungannya lebih tepat. Ini mirip dengan akumulasi DeepSeek fp32 di matmul 8-bit mereka.