Szaleńcy wprowadzili wszystkich w błąd mówiąc o "NATIVE Sparse Attention", długo wyjaśniając, jak post-hoc sparsity jest zła i że konieczne jest trenowanie od podstaw, a po prostu... sparsifikowali punkt kontrolny V3. Czy zdajesz sobie sprawę, że to dotyczy ogólnie wszystkich modeli z gęstym attn?