Bagaimana cara kerja @deepseek_ai Perhatian Jarang (DSA)? Ini memiliki 2 komponen: Lightning Indexer dan Sparse Multi-Latent Attention (MLA). Pengindeks menyimpan cache kunci kecil sebesar 128 per token (vs. 512 untuk MLA). Ini menilai kueri masuk. Token 2048 teratas untuk diteruskan ke MLA Jarang.