Слышал от команды bitsandbytes, что Adam 32-бит дает лучшие результаты по потере и стабильности, чем PyTorch Adam. Мы выполняем все вычисления в fp32, поэтому не имеет значения, какие у вас градиенты; вычисления более точные. Это похоже на накопление fp32 в DeepSeek в их 8-битных матмультипликациях.