Ik heb gehoord van een team bitsandbytes dat Adam 32-bit betere verliezen en stabiliteit oplevert dan PyTorch Adam. We doen alle berekeningen in fp32, dus het maakt niet uit welke gradients je hebt; de berekeningen zijn nauwkeuriger. Dit is vergelijkbaar met DeepSeek fp32 accumulatie in hun 8-bit matmuls.