Patrząc bliżej, PyTorch również używa FP32, ale oto prawdziwy powód, dla którego bnb Adam jest lepszy: zoptymalizowaliśmy dla liczb zmiennoprzecinkowych, kolejność ma znaczenie! Obliczanie sqrt(v) + eps*c2, a następnie dzielenie unika wzmacniania błędów w porównaniu do sqrt(v)/c2 + eps w PyTorch. Ta sama matematyka, lepsza stabilność!