Como funciona a Sparse Attention (DSA) do @deepseek_ai? Ela tem 2 componentes: o Lightning Indexer e a Sparse Multi-Latent Attention (MLA). O indexador mantém um pequeno cache de chaves de 128 por token (vs. 512 para MLA). Ele classifica as consultas recebidas. Os 2048 melhores tokens são passados para a Sparse MLA.