Почуте від команди bitsandbytes, Adam 32-bit забезпечує кращі втрати та стабільність, ніж PyTorch Adam. Всі обчислення ми виконуємо в fp32, тому не має значення, які градієнти у вас є; Розрахунки більш точні. Це схоже на накопичення DeepSeek fp32 у їхніх 8-бітних матмулах.