Comment fonctionne l'Attention Éparse (DSA) de @deepseek_ai ? Elle a 2 composants : l'Indexer Lightning et l'Attention Multi-Latente Éparse (MLA). L'indexeur conserve un petit cache de clés de 128 par token (contre 512 pour MLA). Il évalue les requêtes entrantes. Les 2048 meilleurs tokens sont transmis à Sparse MLA.