«AGI будет разрозненным» (с крошечным индексатором полного внимания) довольно безумно, что у них был полностью адекватный дизайн NSA, его даже принял OpenBMB, а затем они полностью изменили курс
vLLM
vLLM17 часов назад
Как работает Sparse Attention (DSA) от @deepseek_ai? Он состоит из 2 компонентов: Lightning Indexer и Sparse Multi-Latent Attention (MLA). Индексатор хранит небольшой кэш ключей из 128 на токен (по сравнению с 512 для MLA). Он оценивает входящие запросы. Топ-2048 токенов передаются в Sparse MLA.
гунеры высказались
10,99K