Los locos han engañado a todos con "Atención Sparse NATIVE", explicando en detalle cómo la escasez post-hoc es mala y que es totalmente necesario preentrenar desde cero, y simplemente... han esparcido un punto de control V3. ¿Te das cuenta de que esto se aplica en general a todos los modelos de atención densa?