He escuchado de un equipo bitsandbytes que Adam de 32 bits ofrece una mejor pérdida y estabilidad que PyTorch Adam. Hacemos todos los cálculos en fp32, por lo que no importa qué gradientes tengas; los cálculos son más precisos. Esto es similar a la acumulación fp32 de DeepSeek en sus multiplicaciones de matrices de 8 bits.