Các lớp MoE có thể rất chậm. Khi đào tạo các mô hình mã hóa của chúng tôi @cursor_ai, chúng đã tiêu tốn 27–53% thời gian đào tạo. Vì vậy, chúng tôi đã hoàn toàn xây dựng lại nó ở cấp độ kernel và chuyển sang MXFP8. Kết quả: lớp MoE nhanh hơn 3.5 lần và tốc độ đào tạo end-to-end nhanh hơn 1.5 lần. Chúng tôi tin rằng bộ đào tạo MoE MXFP8 của chúng tôi nhanh hơn bất kỳ lựa chọn mã nguồn mở nào có sẵn hiện nay. Đọc thêm tại đây:
100,03K