Pemuda gila telah menyesatkan semua orang dengan "NATIVE Sparse Attention", menjelaskan panjang lebar bagaimana jarangnya post-hoc itu Buruk dan itu perlu untuk berlatih terlebih dahulu dari awal, dan hanya... memisahkan pos pemeriksaan V3. Apakah Anda menyadari ini berlaku secara umum, untuk semua model attn padat?