«AGI va fi rară» (cu un mic indexor de atenție completă) destul de nebunesc că au avut un design NSA complet adecvat, a fost chiar adoptat de OpenBMB, și apoi pivotează complet
vLLM
vLLMCu 23 de ore în urmă
Cum funcționează @deepseek_ai Sparse Attention (DSA)? Are 2 componente: Lightning Indexer și Sparse Multi-Latent Attention (MLA). Indexatorul păstrează un mic cache de chei de 128 pe token (față de 512 pentru MLA). Evaluează interogările primite. Primele 2048 de jetoane vor trece la Sparse MLA.
Gooners au vorbit
11,36K