Immagina se avessero addestrato V4 con qualsiasi cosa, come con normale MLA o GQA, e semplicemente si fossero seduti sui pesi fino a quando non avessero trovato un miglioramento dell'attenzione sparsa per convertirlo post-hoc