Jak działa Sparse Attention (DSA) od @deepseek_ai? Składa się z 2 komponentów: Lightning Indexer i Sparse Multi-Latent Attention (MLA). Indeksator przechowuje małą pamięć kluczy wynoszącą 128 na token (w porównaniu do 512 dla MLA). Ocenia nadchodzące zapytania. Najlepsze 2048 tokenów do przekazania do Sparse MLA.