Gale gutter har villedet alle med "NATIVE Sparse Attention", og forklart utførlig hvordan post-hoc sparsomhet er dårlig og det er nødvendig å forhåndstrene fra bunnen av, og bare ... sparsifiserte et V3-sjekkpunkt. Er du klar over at dette gjelder generelt, for alle tette attn-modeller?