MoE レイヤーは非常に遅い場合があります。コーディングモデルを@cursor_aiトレーニングすると、トレーニング時間の27〜53%を消費しました。 そこで、カーネルレベルで完全に再構築し、MXFP8に移行しました。その結果、MoE レイヤーが 3.5 倍高速化され、エンドツーエンドのトレーニングが 1.5 倍高速化されました。 当社の MXFP8 MoE トレーニング スタックは、現在利用可能などのオープンソースの代替手段よりも高速であると信じています。 詳細はこちら:
55.89K