Modeller för videoförståelse verkar vara nära brytpunkten