Guardando più da vicino, PyTorch utilizza anche FP32, ma ecco il vero motivo per cui bnb Adam è migliore: abbiamo ottimizzato per i numeri in virgola mobile, l'ordine conta! Calcolare sqrt(v) + eps*c2 e poi dividere evita di amplificare gli errori rispetto a sqrt(v)/c2 + eps di PyTorch. Stessa matematica, migliore stabilità!
Ho sentito da un team bitsandbytes che Adam a 32 bit offre una perdita e una stabilità migliori rispetto a PyTorch Adam. Eseguiamo tutti i calcoli in fp32, quindi non importa quali gradienti hai; i calcoli sono più precisi. Questo è simile all'accumulo fp32 di DeepSeek nei loro matmuls a 8 bit.
Ho sentito da un team bitsandbytes che Adam a 32 bit offre una perdita e una stabilità migliori rispetto a PyTorch Adam. Eseguiamo tutti i calcoli in fp32, quindi non importa quali gradienti hai; i calcoli sono più precisi. Questo è simile all'accumulo fp32 di DeepSeek nei loro matmuls a 8 bit.
Sembra che il confine degli agenti di codifica sia ora aperto - pesi:
GLM 4.5 costa solo $3/mese ed è alla pari con Sonnet.
Kimi K2.1 Turbo è 3 volte più veloce, 7 volte più economico rispetto a Opus 4.1, ma altrettanto buono.
Kimi K2.1 sembra pulito. Il miglior modello per me. GPT-5 è buono solo per specifiche complicate -- troppo lento.