سمعت من فريق bitsandbytes آدم 32 بت ينتج عنه خسارة واستقرار أفضل من PyTorch Adam. نقوم بجميع العمليات الحسابية في fp32 ، لذلك لا يهم التدرجات التي لديك. الحسابات أكثر دقة. هذا مشابه لتراكم DeepSeek fp32 في matmuls 8 بت.