@deepseek_aiスパースアテンション(DSA)はどのように機能しますか? これには、Lightning Indexer と Sparse Multi-Latent Attention (MLA) の 2 つのコンポーネントがあります。インデクサーは、トークンあたり 128 個の小さなキー キャッシュを保持します (MLA の場合は 512 個)。受信クエリをスコアリングします。スパース MLA に渡される上位 2048 トークン。