Os malucos enganaram todos com "NATIVE Sparse Attention", explicando longamente como a esparsidade post-hoc é má e que é totalmente necessário pré-treinar do zero, e apenas... esparsificaram um checkpoint V3. Você percebe que isso se aplica de forma geral a todos os modelos de atenção densa?