Rapazes loucos enganaram a todos com "Atenção esparsa nativa", explicando longamente como a esparsidade post-hoc é ruim e é necessário pré-treinar do zero, e apenas ... esparsificou um ponto de verificação V3. Você percebe que isso se aplica de forma geral, a todos os modelos de atenção densa?