Guardando più da vicino, PyTorch utilizza anche FP32, ma ecco il vero motivo per cui bnb Adam è migliore: abbiamo ottimizzato per i numeri in virgola mobile, l'ordine conta! Calcolare sqrt(v) + eps*c2 e poi dividere evita di amplificare gli errori rispetto a sqrt(v)/c2 + eps di PyTorch. Stessa matematica, migliore stabilità!