«AGI bude řídká» (s malým indexátorem plné pozornosti) je docela šílené, že měli plně adekvátní design NSA, dokonce ho převzalo OpenBMB, a pak se úplně otočili
vLLM
vLLM29. 9. 18:59
Jak funguje @deepseek_ai řídká pozornost (DSA)? Má 2 komponenty: Lightning Indexer a Sparse Multi-Latent Attention (MLA). Indexer uchovává malou mezipaměť klíčů 128 na token (oproti 512 pro MLA). Hodnotí příchozí dotazy. 2048 nejlepších tokenů, které mají být předány programu Sparse MLA.
Gooneři promluvili
11,74K