los modelos de comprensión de video parecen estar cerca del punto de inflexión
242