«A AGI será esparsa» (com um minúsculo indexador de atenção total) muito louco que eles tiveram um design NSA totalmente adequado, ele até foi adotado pelo OpenBMB, e então eles mudaram completamente
vLLM
vLLM15 horas atrás
Como funciona @deepseek_ai Atenção Esparsa (DSA)? Possui 2 componentes: o Lightning Indexer e o Sparse Multi-Latent Attention (MLA). O indexador mantém um pequeno cache de chaves de 128 por token (vs. 512 para MLA). Ele pontua as consultas recebidas. Os 2048 principais tokens para passar para o Sparse MLA.
os capangas falaram
10,98K