Якщо придивитися уважніше, то PyTorch також використовує FP32, але ось справжня причина, чому bnb Adam кращий: ми оптимізували для чисел з плаваючою точкою, порядок має значення! Обчислення sqrt(v) + eps*c2 тоді ділення дозволяє уникнути помилок посилення порівняно з sqrt(v)/c2 + eps PyTorch. Та сама математика, краща стабільність!