«AGI będzie rzadkie» (z małym wskaźnikiem pełnej uwagi) całkiem szalone, że mieli w pełni odpowiedni projekt NSA, został on nawet przyjęty przez OpenBMB, a potem całkowicie zmienili kierunek
vLLM
vLLM16 godz. temu
Jak działa Sparse Attention (DSA) od @deepseek_ai? Składa się z 2 komponentów: Lightning Indexer i Sparse Multi-Latent Attention (MLA). Indeksator przechowuje małą pamięć kluczy wynoszącą 128 na token (w porównaniu do 512 dla MLA). Ocenia nadchodzące zapytania. Najlepsze 2048 tokenów do przekazania do Sparse MLA.
goonersi się wypowiedzieli
10,99K