«AGI será escaso» (con un pequeño indexador de atención completa) bastante loco que hayan tenido un diseño NSA totalmente adecuado, incluso fue adoptado por OpenBMB, y luego pivotaron por completo
vLLM
vLLMhace 14 horas
¿Cómo funciona @deepseek_ai atención dispersa (DSA)? Tiene 2 componentes: el Lightning Indexer y la Atención Multilatente Dispersa (MLA). El indexador mantiene una pequeña caché de claves de 128 por token (frente a 512 para MLA). Puntúa las consultas entrantes. Los 2048 tokens principales que pasarán a Sparse MLA.
los matones han hablado
10.98K