Stell dir vor, sie hätten V4 mit irgendetwas trainiert, wie mit normalem MLA oder GQA, und einfach die Gewichte beibehalten, bis sie eine bessere spärliche Aufmerksamkeit herausfinden, um es nachträglich zu konvertieren.