Mirando más de cerca, PyTorch también usa FP32, pero esta es la verdadera razón por la que bnb Adam es mejor: optimizamos para números flotantes, ¡el orden sí importa! Calcular sqrt(v) + eps*c2 y luego dividir evita amplificar los errores frente a sqrt(v)/c2 + eps de PyTorch. ¡Las mismas matemáticas, mejor estabilidad!
Escuchado de un equipo bitsandbytes Adam de 32 bits produce mejor pérdida y estabilidad que PyTorch Adam. Hacemos todos los cálculos en fp32, por lo que no importa qué gradientes tenga; los cálculos son más precisos. Esto es similar a la acumulación de DeepSeek fp32 en sus matmuls de 8 bits.
Escuchado de un equipo bitsandbytes Adam de 32 bits produce mejor pérdida y estabilidad que PyTorch Adam. Hacemos todos los cálculos en fp32, por lo que no importa qué gradientes tenga; los cálculos son más precisos. Esto es similar a la acumulación de DeepSeek fp32 en sus matmuls de 8 bits.