«L'AGI sarà scarso» (con un indicizzatore a piena attenzione minuscolo) è piuttosto pazzesco che abbiano avuto un design NSA completamente adeguato, è stato persino adottato da OpenBMB, e poi hanno completamente cambiato rotta
vLLM
vLLM17 ore fa
Come funziona l'attenzione sparsa (DSA) di @deepseek_ai? Ha 2 componenti: l'Indexer Lightning e l'Attenzione Multi-Latente Sparsa (MLA). L'indexer mantiene una piccola cache di chiavi di 128 per token (rispetto a 512 per MLA). Valuta le query in arrivo. I primi 2048 token vengono passati a Sparse MLA.
i gooners hanno parlato
10,99K