Представьте, если бы они обучили V4 на чем угодно, например, на обычном MLA или GQA, и просто оставили веса в покое, пока не найдут лучший разреженный механизм внимания для преобразования его постфактум.