疯狂的小伙子们用“本地稀疏注意力”误导了所有人,详细解释了事后稀疏是多么糟糕,完全有必要从头开始预训练,然后……只是对一个V3检查点进行了稀疏化。 你意识到这普遍适用于所有稠密注意力模型吗?