Auzit de la o echipă bitsandbytes Adam pe 32 de biți produce pierderi și stabilitate mai bune decât PyTorch Adam. Facem toate calculele în fp32, deci nu contează ce gradiente aveți; calculele sunt mai precise. Acest lucru este similar cu acumularea DeepSeek fp32 în matmulurile lor pe 8 biți.