«AGI será escasso» (com um indexador de atenção total minúsculo) é bastante louco que eles tenham tido um design da NSA totalmente adequado, que até foi adotado pela OpenBMB, e então eles mudaram completamente de direção
vLLM
vLLMHá 13 horas
Como funciona a Sparse Attention (DSA) do @deepseek_ai? Ela tem 2 componentes: o Lightning Indexer e a Sparse Multi-Latent Attention (MLA). O indexador mantém um pequeno cache de chaves de 128 por token (vs. 512 para MLA). Ele classifica as consultas recebidas. Os 2048 melhores tokens são passados para a Sparse MLA.
os gooners falaram
10,98K