«AGI wird spärlich sein» (mit einem winzigen vollständigen Aufmerksamkeitsindexer) ziemlich verrückt, dass sie ein vollständig angemessenes NSA-Design hatten, es wurde sogar von OpenBMB übernommen, und dann haben sie komplett umgeschwenkt
vLLM
vLLMVor 14 Stunden
Wie funktioniert die Sparse Attention (DSA) von @deepseek_ai? Sie hat 2 Komponenten: den Lightning Indexer und die Sparse Multi-Latent Attention (MLA). Der Indexer hält einen kleinen Schlüsselcache von 128 pro Token (im Vergleich zu 512 für MLA). Er bewertet eingehende Anfragen. Die Top-2048 Tokens werden an Sparse MLA weitergegeben.
Die Gooners haben gesprochen
10,98K