Při bližším pohledu PyTorch také používá FP32, ale zde je skutečný důvod, proč je bnb Adam lepší: optimalizovali jsme pro plovoucí čísla, na pořadí záleží! Výpočet sqrt(v) + eps*c2 a následné dělení zabrání chybám zesílení oproti sqrt(v)/c2 + eps PyTorchu. Stejná matematika, lepší stabilita!