Як працює функція @deepseek_ai розрідженої уваги (DSA)? Він складається з 2 компонентів: індексатора блискавки та розрідженої мультилатентної уваги (MLA). Індексатор зберігає невеликий кеш ключів у розмірі 128 на токен (проти 512 у MLA). Він оцінює вхідні запити. Топ-2048 токенів, які можна передати Sparse MLA.