Băieții nebuni au indus în eroare pe toată lumea cu "NATIVE Sparse Attention", explicând pe larg cum sparsitatea post-hoc este rea și că este necesar să te preantrenezi de la zero și doar... a dispersat un punct de control V3. Vă dați seama că acest lucru se aplică în general, tuturor modelelor dense?