Hvordan fungerer @deepseek_ai Sparse Attention (DSA)? Den har 2 komponenter: Lightning Indexer og Sparse Multi-Latent Attention (MLA). Indekseringen har en liten nøkkelbuffer på 128 per token (mot 512 for MLA). Den scorer innkommende spørsmål. De 2048 beste tokenene som skal overføres til sparsomme MLA.