@deepseek_ai Sparse Attention (DSA) hoạt động như thế nào? Nó có 2 thành phần: Lightning Indexer và Sparse Multi-Latent Attention (MLA). Bộ chỉ mục giữ một bộ nhớ khóa nhỏ gồm 128 cho mỗi token (so với 512 cho MLA). Nó đánh giá các truy vấn đến. 2048 token hàng đầu được chuyển đến Sparse MLA.