想象一下,如果他们用任何东西训练 V4,比如用普通的 MLA 或 GQA,然后就静静地等待,直到他们找到更好的稀疏注意力来事后转换它。