「AGI 將會是稀疏的」 (搭配一個微小的全注意力索引器) 他們擁有一個完全足夠的 NSA 設計,這實在太瘋狂了,甚至被 OpenBMB 採用,然後他們完全轉向了其他方向。
vLLM
vLLM16 小時前
@deepseek_ai 的稀疏注意力 (DSA) 是如何運作的? 它有兩個組件:閃電索引器和稀疏多潛在注意力 (MLA)。索引器保持每個標記 128 的小鍵緩存(相較於 MLA 的 512)。它對進來的查詢進行評分。前 2048 個標記將傳遞給稀疏 MLA。
gooners 已經發聲
10.98K