Come funziona l'attenzione sparsa (DSA) di @deepseek_ai? Ha 2 componenti: l'Indexer Lightning e l'Attenzione Multi-Latente Sparsa (MLA). L'indexer mantiene una piccola cache di chiavi di 128 per token (rispetto a 512 per MLA). Valuta le query in arrivo. I primi 2048 token vengono passati a Sparse MLA.