Hullut pojat ovat johtaneet kaikkia harhaan "NATIVE Sparse Attention" -lauseella, selittäen pitkään, kuinka post-hoc-niukkuus on huonoa ja että on välttämätöntä harjoitella tyhjästä, ja vain... V3-tarkistuspisteen harventaminen. Ymmärrätkö, että tämä pätee yleisesti kaikkiin tiheisiin attn-malleihin?