Os modelos de compreensão de vídeo parecem estar próximos do ponto de inflexão
352