视频理解、剧情预测、视频问答方法、装置、设备及介质与流程

本发明涉及视频理解，尤其涉及一种视频理解、剧情预测、视频问答方法、装置、设备及介质，本发明可以用于视频搜索、智能家居、在线教育等领域。

背景技术：

1、视频理解是当前计算机视觉研究领域中备受学术界和工业界关注的方向。随着视频行业的高速发展，如何利用人工智能技术更好地对视频内容进行理解变得越来越重要。

2、虽然相关技术中的一些研究已经注意到视频理解的重要性，但是仍然将视频理解任务看作视觉识别和分类任务(visual recognition and classifications)。因此，需要提供一种新的方式对视频内容进行理解。

技术实现思路

1、本发明旨在至少在一定程度上解决相关技术中的技术问题之一。为此，本发明提出一种视频理解、剧情预测、视频问答方法、装置、设备及介质。

2、本发明提供一种视频理解方法，所述方法包括：获取视频文件对应的多个图像文本对；其中，所述图像文本对包括图像帧和与所述图像帧对应的文本；对所述图像文本对中的图像帧和文本进行特征提取和特征融合，得到所述图像文本对的融合特征；基于所述图像文本对的融合特征进行聚类处理，得到视频分段簇；其中，所述视频分段簇包括的融合特征所对应的图像文本对属于所述视频文件的同一个单位分段；对所述视频分段簇中的图像文本对进行排序，得到所述视频分段簇中图像文本对的分段内排列顺序；根据所述分段内排列顺序对所述视频文件进行内容理解。

3、本发明提供一种剧情预测方法，所述方法包括：获取视频文件包括的目标视频片段对应的多个图像文本对；其中，所述图像文本对包括图像帧和与所述图像帧对应的文本；所述视频文件包括多个视频片段；对所述图像文本对中的图像帧和文本进行特征提取和特征融合，得到所述图像文本对的融合特征；对所述视频片段对应的剧情文本进行特征提取，得到视频片段剧情特征；基于所述图像文本对的融合特征与所述视频片段剧情特征进行特征匹配，预测所述目标视频片段所对应的目标剧情文本。

4、本发明提供一种视频问答方法，所述方法包括：获取视频文件对应的多个图像文本对；其中，所述图像文本对包括图像帧和与所述图像帧对应的文本；对所述图像文本对中的图像帧和文本进行特征提取和特征融合，得到所述图像文本对的融合特征；其中，基于所述视频文件提供有问题文本以及所述问题文本对应的多个选项文本；基于问题文本和每个所述选项文本进行特征提取，得到每个所述选项文本对应的问题选项特征；基于所述图像文本对的融合特征与所述问题选项特征进行特征匹配，得到特征匹配结果；根据所述特征匹配结果在所述多个选项文本中确定所述问题文本对应的正确选项文本。

5、本发明提供一种视频理解装置，所述装置包括：

6、图像文本对获取模块，用于获取视频文件对应的多个图像文本对；其中，所述图像文本对包括图像帧和与所述图像帧对应的文本；

7、特征提取融合模块，用于对所述图像文本对中的图像帧和文本进行特征提取和特征融合，得到所述图像文本对的融合特征；

8、特征聚类处理模块，用于基于所述图像文本对的融合特征进行聚类处理，得到视频分段簇；其中，所述视频分段簇包括的融合特征所对应的图像文本对属于同一个单位分段；

9、排列顺序确定模块，用于对所述视频分段簇中的图像文本对进行排序，得到所述视频分段簇中图像文本对的分段内排列顺序；

10、视频理解模块，用于根据所述分段内排列顺序对所述视频文件进行内容理解。

11、本发明提供一种剧情预测装置，所述装置包括：

12、图像文本对获取模块，用于获取视频文件包括的目标视频片段对应的多个图像文本对；其中，所述图像文本对包括图像帧和与所述图像帧对应的文本；所述视频文件包括多个视频片段；

13、特征提取融合模块，用于对所述图像文本对中的图像帧和文本进行特征提取和特征融合，得到所述图像文本对的融合特征；

14、剧情特征提取模块，用于对所述视频片段对应的剧情文本进行特征提取，得到视频片段剧情特征；

15、剧情文本匹配模块，用于基于所述图像文本对的融合特征与所述视频片段剧情特征进行特征匹配，得到所述目标视频片段所对应的目标剧情文本。

16、本发明提供一种视频问答装置，所述装置包括：

17、图像文本对获取模块，用于获取视频文件对应的多个图像文本对；其中，所述图像文本对包括图像帧和与所述图像帧对应的文本；

18、特征提取融合模块，用于对所述图像文本对中的图像帧和文本进行特征提取和特征融合，得到所述图像文本对的融合特征；其中，基于所述视频文件提供有问题文本以及所述问题文本对应的多个选项文本；

19、选项特征提取模块，基于问题文本和每个所述选项文本进行特征提取，得到每个所述选项文本对应的问题选项特征；

20、选项特征匹配模块，用于基于所述图像文本对的融合特征与所述问题选项特征进行特征匹配，得到特征匹配结果；

21、正确选项确定模块，用于根据所述特征匹配结果在所述多个选项文本中确定所述问题文本对应的正确选项文本。

22、本发明提供一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述任一项所述的方法的步骤。

23、本发明提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任一项所述的方法的步骤。

24、本发明中，通过获取视频文件对应的多个图像文本对，对图像文本对中的图像帧和文本进行特征提取和特征融合，得到图像文本对的融合特征；以多模态形式提取视频文件的特征信息，为后续视频理解提供全面的基础；其次，基于图像文本对的融合特征进行聚类处理，得到视频分段簇，确定视频文件的基础叙事结构；对视频分段簇中的图像文本对进行排序，得到视频分段簇中图像文本对的分段内排列顺序，得到反每个视频分段簇的视觉语义顺序；最后，根据分段内排列顺序对视频文件进行内容理解。实现对视频文件中事件发展、故事情节等重要信息的理解，实现以整体视频理解以及视觉叙事结构为两个关键因素完成视觉叙事推理(visual narrative reasoning，vnr)任务，以一种新的方式实现对视频文件的整体理解，而不是将视频理解任务定义视觉识别和分类，减少视频理解在长篇视频应用场景的限制。

25、本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

技术特征：

1.一种视频理解方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述对所述图像文本对中的图像帧和文本进行特征提取和特征融合，得到所述图像文本对的融合特征，包括：

3.根据权利要求2所述的方法，其特征在于，所述多个图像文本对包括第一图像文本对和第二图像文本对，所述第一图像文本对包括第一图像和所述第一图像对应的第一文本，所述第二图像文本对包括第二图像和所述第二图像对应的第二文本；所述对所述图像文本对中的图像帧和文本进行特征提取，得到所述图像帧的图像分类头和所述文本的文本分类头，包括：

4.根据权利要求3所述的方法，其特征在于，所述第二特征对与所述第一特征对的获取方式相同；所述第一特征对的获取方式，包括：

5.根据权利要求4所述的方法，其特征在于，所述基于所述第一图像特征以及所述第一文本特征得到所述第一特征对，包括：

6.根据权利要求1所述的方法，其特征在于，所述根据所述分段内排列顺序对所述视频文件进行内容理解，包括：

7.根据权利要求6所述的方法，其特征在于，所述多个图像文本对中的任意两个图像文本对包括第一图像文本对和第二图像文本对；所述视频分段簇的数量为多个；在所述根据所述分段内排列顺序确定所述多个图像文本对的帧顺序之前，所述方法还包括：

8.根据权利要求7所述的方法，其特征在于，所述基于所述任一视频分段簇中任意两个图像文本对的帧顺序，对所述任一视频分段簇包括的分段元素进行排序，得到所述任一视频分段簇中分段元素的分段内排列顺序，包括：

9.根据权利要求1所述的方法，其特征在于，所述单位分段为场景；所述基于所述图像文本对的融合特征进行聚类处理，得到视频分段簇，包括：

10.根据权利要求1所述的方法，其特征在于，所述单位分段为分镜；所述基于所述图像文本对的融合特征进行聚类处理，得到视频分段簇，包括：

11.根据权利要求6所述的方法，其特征在于，所述单位分段为场景和分镜；所述基于所述图像文本对的融合特征进行聚类处理，得到视频分段簇，包括：

12.根据权利要求11所述的方法，其特征在于，所述多个图像文本对中的任意两个图像文本对包括第一图像文本对和第二图像文本对；所述场景簇的数量为多个；在所述根据所述分段内排列顺序确定所述多个图像文本对的帧顺序之前，所述方法还包括：

13.一种剧情预测方法，其特征在于，所述方法包括：

14.根据权利要求13所述的方法，其特征在于，所述视频文件包括多个场景，所述目标视频片段为目标场景；所述基于所述图像文本对的融合特征与所述视频片段剧情特征进行特征匹配，得到所述目标视频片段所对应的目标剧情文本，包括：

15.一种视频问答方法，其特征在于，所述方法包括：

16.一种视频理解装置，其特征在于，所述装置包括：

17.一种剧情预测装置，其特征在于，所述装置包括：

18.一种视频问答装置，其特征在于，所述装置包括：

19.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至14中任一项所述的方法的步骤。

20.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至14中任一项所述的方法的步骤。

技术总结
本发明公开了一种视频理解、剧情预测、视频问答方法、装置、设备及介质。通过获取视频文件对应的多个图像文本对，对图像文本对中的图像帧和文本进行特征提取和特征融合，得到图像文本对的融合特征；其次，基于图像文本对的融合特征进行聚类处理，得到视频分段簇，确定视频文件的基础叙事结构；对视频分段簇中的图像文本对进行排序，得到视频分段簇中图像文本对的分段内排列顺序，得到反每个视频分段簇的视觉语义顺序；最后，根据分段内排列顺序对视频文件进行内容理解。实现对视频文件中事件发展、故事情节等重要信息的理解，实现以整体视频理解以及视觉叙事结构为两个关键因素完成视觉叙事推理任务。

技术研发人员：郑子隆,汪江汇,汪宇轩
受保护的技术使用者：北京通用人工智能研究院
技术研发日：
技术公布日：2024/12/5

专利

最新回复(0)