Minha experiência atual como agente:
GPT-5: código complexo, oriente a ler menos para não poluir o contexto
Opus 4.1: Desenvolvimento rápido em código menos complexo
GLM 4.5: Muito semelhante ao Sonnet 4.0, mas mais rápido; preferido se o Opus 4.1 acabar
Kimi K2: muito autônomo, perfeito para TDD simples
Olhando mais de perto, o PyTorch também usa FP32, mas aqui está a verdadeira razão pela qual o bnb Adam é melhor: otimizamos para números flutuantes, a ordem importa! Calcular sqrt(v) + eps*c2 e depois dividir evita erros de amplificação em relação ao sqrt(v)/c2 + eps do PyTorch. Mesma matemática, melhor estabilidade!
Ouvido de uma equipe bitsandbytes Adam 32-bit produz melhor perda e estabilidade do que PyTorch Adam. Fazemos todos os cálculos em fp32, então não importa quais gradientes você tenha; os cálculos são mais precisos. Isso é semelhante ao acúmulo de fp32 do DeepSeek em seus matmuls de 8 bits.