Imagine se eles tivessem treinado o V4 com qualquer coisa, como com MLA normal ou GQA, e apenas ficassem com os pesos até descobrirem uma melhor atenção esparsa para converter isso post-hoc