«AGI akan jarang» (dengan pengindeks perhatian penuh kecil) cukup gila bahwa mereka memiliki desain NSA yang sepenuhnya memadai, bahkan diadopsi oleh OpenBMB, dan kemudian mereka benar-benar berputar
vLLM
vLLM29 Sep 2025
Bagaimana cara kerja @deepseek_ai Perhatian Jarang (DSA)? Ini memiliki 2 komponen: Lightning Indexer dan Sparse Multi-Latent Attention (MLA). Pengindeks menyimpan cache kunci kecil sebesar 128 per token (vs. 512 untuk MLA). Ini menilai kueri masuk. Token 2048 teratas untuk diteruskan ke MLA Jarang.
telah berbicara
11,87K