«AGI kommer att vara gles» (med en liten indexerare med full uppmärksamhet) ganska galet att de har haft en fullt adekvat NSA-design, den blev till och med antagen av OpenBMB, och sedan svänger de helt och hållet
vLLM
vLLM29 sep. 2025
Hur fungerar @deepseek_ai Sparse Attention (DSA)? Den har 2 komponenter: Lightning Indexer och Sparse Multi-Latent Attention (MLA). Indexeraren behåller en liten nyckelcache på 128 per token (jämfört med 512 för MLA). Den poängsätter inkommande frågor. De 2048 bästa tokenerna som ska skickas till Sparse MLA.
Gooners har talat
11,91K