Imagine se eles tivessem treinado V4 com qualquer coisa, como com MLA ou GQA normal, e apenas sentassem nos pesos até descobrirem uma atenção esparsa melhor para convertê-la post-hoc