Hãy tưởng tượng nếu họ đã huấn luyện V4 với bất cứ điều gì, như với MLA bình thường hoặc GQA, và chỉ ngồi trên các trọng số cho đến khi họ tìm ra một cách chú ý thưa tốt hơn để chuyển đổi nó sau đó.