Как работает Sparse Attention (DSA) от @deepseek_ai? Он состоит из 2 компонентов: Lightning Indexer и Sparse Multi-Latent Attention (MLA). Индексатор хранит небольшой кэш ключей из 128 на токен (по сравнению с 512 для MLA). Он оценивает входящие запросы. Топ-2048 токенов передаются в Sparse MLA.