瘋狂的傢伙們用「NATIVE Sparse Attention」誤導了所有人,詳細解釋了事後稀疏是多麼糟糕,並且從零開始預訓練是多麼必要,然後就… 將一個 V3 檢查點稀疏化了。 你意識到這普遍適用於所有密集注意力模型嗎?