Como funciona @deepseek_ai Atenção Esparsa (DSA)? Possui 2 componentes: o Lightning Indexer e o Sparse Multi-Latent Attention (MLA). O indexador mantém um pequeno cache de chaves de 128 por token (vs. 512 para MLA). Ele pontua as consultas recebidas. Os 2048 principais tokens para passar para o Sparse MLA.