Escuchado de un equipo bitsandbytes Adam de 32 bits produce mejor pérdida y estabilidad que PyTorch Adam. Hacemos todos los cálculos en fp32, por lo que no importa qué gradientes tenga; los cálculos son más precisos. Esto es similar a la acumulación de DeepSeek fp32 en sus matmuls de 8 bits.