«AGI 将会是稀疏的» (配有一个微小的全注意力索引器) 他们拥有一个完全合适的 NSA 设计,这真是太疯狂了,甚至被 OpenBMB 采用,然后他们完全转变方向。
vLLM
vLLM17 小时前
@deepseek_ai 稀疏注意力(DSA)是如何工作的? 它有两个组成部分:闪电索引器和稀疏多潜在注意力(MLA)。索引器保持每个令牌128的小键缓存(相比之下,MLA为512)。它对传入的查询进行评分。前2048个令牌将传递给稀疏MLA。
枪手们已经发声
10.99K