Los modelos de comprensión de video parecen estar cerca del punto de inflexión
225