Hört från ett team bitsandbytes Adam 32-bitars ger bättre förlust och stabilitet än PyTorch Adam. Vi gör alla beräkningar i fp32, så det spelar ingen roll vilka gradienter du har; Beräkningarna är mer exakta. Detta liknar DeepSeek fp32-ackumulering i deras 8-bitars matmuls.