Cum funcționează @deepseek_ai Sparse Attention (DSA)? Are 2 componente: Lightning Indexer și Sparse Multi-Latent Attention (MLA). Indexatorul păstrează un mic cache de chei de 128 pe token (față de 512 pentru MLA). Evaluează interogările primite. Primele 2048 de jetoane vor trece la Sparse MLA.