Wie funktioniert die Sparse Attention (DSA) von @deepseek_ai? Sie hat 2 Komponenten: den Lightning Indexer und die Sparse Multi-Latent Attention (MLA). Der Indexer hält einen kleinen Schlüsselcache von 128 pro Token (im Vergleich zu 512 für MLA). Er bewertet eingehende Anfragen. Die Top-2048 Tokens werden an Sparse MLA weitergegeben.