トレンドトピック
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
@Meituan_LongCat LongCat-Flash のテクニカル レポートは非常に優れており、目新しさに満ちています。
このモデルは、560Bパッシブ~27BのアクティブMoEで、Zero-Computationalの専門家のおかげで、コンテキストに応じてアクティブパラメータの数を適応させます。
1) 新しいアーキテクチャ
>レイヤーには2つのアテンションブロックとFFNとMoEの両方があり、2つのオールツーオールコムをオーバーラップできます。(また、28層しかありませんが、2つのアテンションブロックを考慮する必要があります)。
> 彼らは、トークンが選択して何もできないというゼロ計算の専門家を追加し、簡単なトークンの「シンク」のようなものです。
> 負荷分散のために、トークンごとの平均本物/偽のエキスパートを設定するための dsv3 のような aux loss free があります。このバイアス更新に減衰スケジュールを適用します。また、損失残高管理も行います。
2) スケーリング
> MLA/MoE に変更を加えて、初期時に分散を調整しました。図5の利益は非常に印象的ですが、これが後でどの程度影響を与えるかはわかりません。
> モデルの成長初期化は非常にクールで、最初に 2 倍小さいモデルをトレーニングし、次に「十分にトレーニングされたら」(ここでは B トークンの数が少し不明瞭です) 小さなモデルのレイヤーを積み重ねるだけで最終モデルを初期化します。
> 彼らは、@_katieeverett @Locchiuとal.紙を使用して、2倍小さいモデルigのmuPの代わりにSPでハイパーパラメータ転送を行いました。
3) 安定性
> 彼らは、専門家間の勾配ノルム比とコサイン類似性を追跡して、負荷分散損失の重みを調整します(彼らは勾配ノルム比<0.1)を推奨しています)。> 大きな活性化を避けるために、かなり小さな係数で隠れ状態にz損失を適用します(qk-clip / normの別の代替手段)。
> 彼らは Adam epsilon を 1e-16 に設定し、勾配 RMS 範囲よりも低くしたいことを示しています。
4) その他
> フェーズ 1 では 20T トークンでトレーニングし、STEM/コード データ (混合物の 70%) での中間トレーニングでは「複数の T トークン」でトレーニングし、糸を使用しない長いコンテキスト拡張では 100B でトレーニングします (32k の場合は 80B、128k の場合は 20B)。長いコンテキストのドキュメントは、混合物の25%を占めます(ドキュメントとトークンの%なのかはわかりませんが、ここでは大きく変わります)。
> 事前トレーニング データ パイプラインは、コンテキスト抽出、品質フィルタリング、重複排除です。
> ニース付録では、さまざまなベンチマークに必要なtop_kを比較しています (MMLU が高いのは 8.32、GSM8K は低い 7.46)。また、深い層と浅い層でのトークンの割り当ても比較します。
> Meeseeks(マルチターンIF)とVitaBench(実世界のビジネスシナリオ)という2つの新しいベンチマークをリリースしています。
> 投機的デコードの受け入れ、量子化、展開、カーネルの最適化、通信の重複などに関する情報を含む、インフラ/推論の詳細が多数あります。
> スレッド🧵内のさまざまな関連論文のリスト

82.24K
トップ
ランキング
お気に入り