Miten @deepseek_ai Sparse Attention (DSA) toimii? Siinä on 2 komponenttia: Lightning Indexer ja Sparse Multi-Latent Attention (MLA). Indeksoija säilyttää pienen avaimen välimuistin, joka on 128 merkkiä kohden (verrattuna MLA:n 512:een). Se pisteyttää saapuvat kyselyt. 2048 parasta tokenia siirretään Sparse MLA:lle.