Jak funguje @deepseek_ai řídká pozornost (DSA)? Má 2 komponenty: Lightning Indexer a Sparse Multi-Latent Attention (MLA). Indexer uchovává malou mezipaměť klíčů 128 na token (oproti 512 pro MLA). Hodnotí příchozí dotazy. 2048 nejlepších tokenů, které mají být předány programu Sparse MLA.