Mad grabbar har vilselett alla med "NATIVE Sparse Attention", och förklarar länge hur post-hoc sparsity är dåligt och att det är nödvändigt att förträna från början, och bara... glesifierade en V3 checkpoint. Inser du att detta gäller generellt för alla täta attn-modeller?