Melihat lebih dekat, PyTorch juga menggunakan FP32, tetapi inilah alasan sebenarnya mengapa bnb Adam lebih baik: kami mengoptimalkan untuk numerik float, urutan itu penting! Menghitung sqrt(v) + eps*c2 kemudian membagi menghindari kesalahan penguatan vs sqrt(v)/c2 + eps PyTorch. Matematika yang sama, stabilitas yang lebih baik!
Mendengar dari tim bitsandbytes Adam 32-bit menghasilkan kerugian dan stabilitas yang lebih baik daripada PyTorch Adam. Kami melakukan semua perhitungan di fp32, jadi tidak masalah gradien apa yang Anda miliki; perhitungannya lebih tepat. Ini mirip dengan akumulasi DeepSeek fp32 di matmul 8-bit mereka.
Mendengar dari tim bitsandbytes Adam 32-bit menghasilkan kerugian dan stabilitas yang lebih baik daripada PyTorch Adam. Kami melakukan semua perhitungan di fp32, jadi tidak masalah gradien apa yang Anda miliki; perhitungannya lebih tepat. Ini mirip dengan akumulasi DeepSeek fp32 di matmul 8-bit mereka.
Rasanya perbatasan agen pengkodean sekarang menjadi bobot terbuka:
GLM 4.5 hanya berharga $3/bulan dan setara dengan Sonnet
Kimi K2.1 Turbo adalah kecepatan 3x, 7x lebih murah vs Opus 4.1, tetapi sama bagusnya
Kimi K2.1 terasa bersih. Model terbaik untuk saya. GPT-5 hanya bagus untuk spesifikasi yang rumit -- terlalu lambat.