想像一下,如果他們用任何東西訓練 V4,比如用正常的 MLA 或 GQA,然後就靜置權重,直到他們找出更好的稀疏注意力來事後轉換它。