@deepseek_ai 的稀疏注意力 (DSA) 是如何運作的? 它有兩個組件:閃電索引器和稀疏多潛在注意力 (MLA)。索引器保持每個標記 128 的小鍵緩存(相較於 MLA 的 512)。它對進來的查詢進行評分。前 2048 個標記將傳遞給稀疏 MLA。