@deepseek_ai 稀疏注意力(DSA)是如何工作的? 它有两个组成部分:闪电索引器和稀疏多潜在注意力(MLA)。索引器保持每个令牌128的小键缓存(相比之下,MLA为512)。它对传入的查询进行评分。前2048个令牌将传递给稀疏MLA。