Imagine s'ils avaient entraîné V4 avec n'importe quoi, comme avec un MLA normal ou GQA, et qu'ils laissaient simplement les poids en attente jusqu'à ce qu'ils trouvent une meilleure attention éparse pour la convertir a posteriori.