Ho sentito da un team bitsandbytes che Adam a 32 bit offre una perdita e una stabilità migliori rispetto a PyTorch Adam. Eseguiamo tutti i calcoli in fp32, quindi non importa quali gradienti hai; i calcoli sono più precisi. Questo è simile all'accumulo fp32 di DeepSeek nei loro matmuls a 8 bit.