Privind mai atent, PyTorch folosește și FP32, dar iată adevăratul motiv pentru care bnb Adam este mai bun: am optimizat pentru numerele float, ordinea contează! Calcularea sqrt(v) + eps*c2 apoi împărțirea evită erorile de amplificare față de sqrt(v)/c2 + eps de la PyTorch. Aceeași matematică, stabilitate mai bună!