«AGIがまばらになる» (小さなフルアテンションインデクサーを使用) 彼らが完全に適切なNSA設計を持ち、それがOpenBMBに採用され、その後完全に方向転換したのはかなりクレイジーです
vLLM
vLLM13時間前
@deepseek_aiスパースアテンション(DSA)はどのように機能しますか? これには、Lightning Indexer と Sparse Multi-Latent Attention (MLA) の 2 つのコンポーネントがあります。インデクサーは、トークンあたり 128 個の小さなキー キャッシュを保持します (MLA の場合は 512 個)。受信クエリをスコアリングします。スパース MLA に渡される上位 2048 トークン。
グーナーが話した
10.3K