I ragazzi pazzi hanno ingannato tutti con "NATIVE Sparse Attention", spiegando a lungo come la sparsità post-hoc sia cattiva e sia assolutamente necessario preaddestrare da zero, e hanno semplicemente... reso sparso un checkpoint V3. Ti rendi conto che questo si applica in generale a tutti i modelli di attenzione densa?