«AGI буде розрідженим» (з крихітним повним індексатором уваги) досить божевільно, що у них був цілком адекватний дизайн NSA, він навіть був прийнятий OpenBMB, а потім вони повністю перейшли
vLLM
vLLM11 годин тому
Як працює функція @deepseek_ai розрідженої уваги (DSA)? Він складається з 2 компонентів: індексатора блискавки та розрідженої мультилатентної уваги (MLA). Індексатор зберігає невеликий кеш ключів у розмірі 128 на токен (проти 512 у MLA). Він оцінює вхідні запити. Топ-2048 токенів, які можна передати Sparse MLA.
Гунці заговорили
10,3K