«AGI sẽ hiếm» (với một chỉ số chú ý đầy đủ nhỏ bé) thật điên rồ khi họ đã có một thiết kế NSA hoàn toàn đầy đủ, nó thậm chí đã được OpenBMB áp dụng, và sau đó họ hoàn toàn chuyển hướng.
vLLM
vLLM17 giờ trước
@deepseek_ai Sparse Attention (DSA) hoạt động như thế nào? Nó có 2 thành phần: Lightning Indexer và Sparse Multi-Latent Attention (MLA). Bộ chỉ mục giữ một bộ nhớ khóa nhỏ gồm 128 cho mỗi token (so với 512 cho MLA). Nó đánh giá các truy vấn đến. 2048 token hàng đầu được chuyển đến Sparse MLA.
các gooners đã lên tiếng
10,99K