«AGI tulee olemaan harva» (pienellä täyden huomion indeksoijalla) aika hullua, että heillä on ollut täysin riittävä NSA-suunnittelu, se jopa omaksuttiin OpenBMB:ssä, ja sitten he kääntyivät täysin
vLLM
vLLM15 tuntia sitten
Miten @deepseek_ai Sparse Attention (DSA) toimii? Siinä on 2 komponenttia: Lightning Indexer ja Sparse Multi-Latent Attention (MLA). Indeksoija säilyttää pienen avaimen välimuistin, joka on 128 merkkiä kohden (verrattuna MLA:n 512:een). Se pisteyttää saapuvat kyselyt. 2048 parasta tokenia siirretään Sparse MLA:lle.
roistot ovat puhuneet
10,98K