«AGI zal schaars zijn» (met een kleine volledige aandacht indexer) best gek dat ze een volledig adequate NSA-ontwerp hebben gehad, het werd zelfs aangenomen door OpenBMB, en toen draaiden ze volledig om.
vLLM
vLLM17 uur geleden
Hoe werkt @deepseek_ai Sparse Attention (DSA)? Het heeft 2 componenten: de Lightning Indexer en Sparse Multi-Latent Attention (MLA). De indexer houdt een kleine sleutelcache van 128 per token (vs. 512 voor MLA). Het beoordeelt binnenkomende queries. De top-2048 tokens worden doorgegeven aan Sparse MLA.
gooners hebben gesproken
10,99K