@Meituan_LongCat LongCat-Flash のテクニカル レポートは非常に優れており、目新しさに満ちています。 このモデルは、560Bパッシブ~27BのアクティブMoEで、Zero-Computationalの専門家のおかげで、コンテキストに応じてアクティブパラメータの数を適応させます。 1) 新しいアーキテクチャ >レイヤーには2つのアテンションブロックとFFNとMoEの両方があり、2つのオールツーオールコムをオーバーラップできます。(また、28層しかありませんが、2つのアテンションブロックを考慮する必要があります)。 > 彼らは、トークンが選択して何もできないというゼロ計算の専門家を追加し、簡単なトークンの「シンク」のようなものです。 > 負荷分散のために、トークンごとの平均本物/偽のエキスパートを設定するための dsv3 のような aux loss free があります。このバイアス更新に減衰スケジュールを適用します。また、損失残高管理も行います。 2) スケーリング > MLA/MoE に変更を加えて、初期時に分散を調整しました。図5の利益は非常に印象的ですが、これが後でどの程度影響を与えるかはわかりません。 > モデルの成長初期化は非常にクールで、最初に 2 倍小さいモデルをトレーニングし、次に「十分にトレーニングされたら」(ここでは B トークンの数が少し不明瞭です) 小さなモデルのレイヤーを積み重ねるだけで最終モデルを初期化します。 > 彼らは、@_katieeverett @Locchiuとal.紙を使用して、2倍小さいモデルigのmuPの代わりにSPでハイパーパラメータ転送を行いました。 3) 安定性 > 彼らは、専門家間の勾配ノルム比とコサイン類似性を追跡して、負荷分散損失の重みを調整します(彼らは勾配ノルム比<0.1)を推奨しています)。> 大きな活性化を避けるために、かなり小さな係数で隠れ状態にz損失を適用します(qk-clip / normの別の代替手段)。 > 彼らは Adam epsilon を 1e-16 に設定し、勾配 RMS 範囲よりも低くしたいことを示しています。 4) その他 > フェーズ 1 では 20T トークンでトレーニングし、STEM/コード データ (混合物の 70%) での中間トレーニングでは「複数の T トークン」でトレーニングし、糸を使用しない長いコンテキスト拡張では 100B でトレーニングします (32k の場合は 80B、128k の場合は 20B)。長いコンテキストのドキュメントは、混合物の25%を占めます(ドキュメントとトークンの%なのかはわかりませんが、ここでは大きく変わります)。 > 事前トレーニング データ パイプラインは、コンテキスト抽出、品質フィルタリング、重複排除です。 > ニース付録では、さまざまなベンチマークに必要なtop_kを比較しています (MMLU が高いのは 8.32、GSM8K は低い 7.46)。また、深い層と浅い層でのトークンの割り当ても比較します。 > Meeseeks(マルチターンIF)とVitaBench(実世界のビジネスシナリオ)という2つの新しいベンチマークをリリースしています。 > 投機的デコードの受け入れ、量子化、展開、カーネルの最適化、通信の重複などに関する情報を含む、インフラ/推論の詳細が多数あります。 > スレッド🧵内のさまざまな関連論文のリスト
82.24K