Hur fungerar @deepseek_ai Sparse Attention (DSA)? Den har 2 komponenter: Lightning Indexer och Sparse Multi-Latent Attention (MLA). Indexeraren behåller en liten nyckelcache på 128 per token (jämfört med 512 för MLA). Den poängsätter inkommande frågor. De 2048 bästa tokenerna som ska skickas till Sparse MLA.