«L'AGI sera rare» (avec un indexeur à attention complète minuscule) c'est assez fou qu'ils aient eu un design NSA entièrement adéquat, il a même été adopté par OpenBMB, puis ils ont complètement pivoté
vLLM
vLLMil y a 16 heures
Comment fonctionne l'Attention Éparse (DSA) de @deepseek_ai ? Elle a 2 composants : l'Indexer Lightning et l'Attention Multi-Latente Éparse (MLA). L'indexeur conserve un petit cache de clés de 128 par token (contre 512 pour MLA). Il évalue les requêtes entrantes. Les 2048 meilleurs tokens sont transmis à Sparse MLA.
les gooners ont parlé
10,99K