بالنظر عن كثب ، يستخدم PyTorch أيضا FP32 ، ولكن هذا هو السبب الحقيقي وراء كون bnb Adam أفضل: لقد قمنا بتحسين الأرقام العائمة ، والترتيب مهم! الحوسبة sqrt (v) + eps * c2 ثم القسمة تتجنب تضخيم الأخطاء مقابل sqrt (v) / c2 + eps الخاصة ب PyTorch. نفس الرياضيات ، استقرار أفضل!