«AGI será escaso» (con un indexador de atención total diminuto) es bastante loco que hayan tenido un diseño de NSA completamente adecuado, incluso fue adoptado por OpenBMB, y luego cambiaron completamente de rumbo
vLLM
vLLMHace 17 horas
¿Cómo funciona la Atención Escasa (DSA) de @deepseek_ai? Tiene 2 componentes: el Indexador Lightning y la Atención Multi-Latente Escasa (MLA). El indexador mantiene una pequeña caché de claves de 128 por token (frente a 512 para MLA). Evalúa las consultas entrantes. Los 2048 mejores tokens se pasan a la MLA Escasa.
los gooners han hablado
10,99K