Šílení hoši všechny uvedli v omyl "NATIVE Sparse Attention", dlouze vysvětlovali, jak je post-hoc řídkost špatná a je nutné ji předtrénovat od nuly, a prostě... zředil kontrolní bod V3. Uvědomujete si, že to platí obecně, pro všechny modely s hustou obrazovkou?