融合CLIP和自适应图变换网络的人格预测方法及装置

本发明涉及情感计算技术，特别是指一种融合clip和自适应图变换网络的人格预测方法及装置。

背景技术：

1、情感计算是一个新兴领域，专注于人类与机器之间的交互，其目标是创造能够理解、解释和响应人类情感的机器。人格计算是情感计算的一个子领域，它分析、识别和合成个性特征。个性特征是一种持久的思维、感情和行为模式，塑造并区分一个人的个性与他人的不同。因此，人格计算结合了心理学和人工智能两个科学领域，使其成为一个相关的研究领域。随着多媒体社交平台（如youtube、instagram和抖音）的蓬勃发展，人们越来越多地通过视频分享他们的生活。近年来，人格分析在计算机视觉、语言学及其他相关学科的研究人员中越来越受到关注。在过去的几十年中，一些研究人员利用心理学量表建立了各种个性特征模型。例如，五大人格模型旨在通过五个特征评估个性：开放性（o）、责任心（c）、外向性（e）、宜人性（a）和神经质（n）。个性特征可以影响人们的决策和偏好，而个性预测在求职面试、情感婚恋咨询、购买行为等方面具有许多实际应用。

2、从实际性能的角度来看，现有的优秀算法主要考虑个性预测数据集的单一性，利用预训练模型充分提取单一模态特征，并通过不同的特征融合策略融合不同模态的特征。尽管这些预训练模型已经在中等规模数据集上进行了训练，但由于预训练数据集的样本数量有限，它们提取特征的能力仍然需要改进。同时，尽管个性预测问题是一个多模态分析任务，这些优秀算法忽视了对不同模态关联特征的探索，从而未能进一步提高个性预测的准确性。

技术实现思路

1、为了解决现有技术忽视了对不同模态关联特征的探索，从而未能进一步提高个性预测的准确性的技术问题，本发明实施例提供了一种融合clip和自适应图变换网络的人格预测方法及装置。所述技术方案如下：

2、一方面，提供了一种融合clip和自适应图变换网络的人格预测方法，该方法由人格预测设备实现，该方法包括：

3、s1、获取待进行人格预测的视频数据。

4、s2、根据视频数据以及wav2clip-graph方法，得到音频-场景关联特征。

5、s3、根据视频数据以及clip方法，得到场景-人格描述词关联特征。

6、s4、根据视频数据以及vggish cnn-rnn方法，得到音频表示特征。

7、s5、将音频-场景关联特征、场景-人格描述词关联特征以及音频表示特征输入到多模态通道注意力残差融合模块，得到融合多模态特征，进而得到人格特质预测结果。

8、可选地，s2中的根据视频数据以及wav2clip-graph方法，得到音频-场景关联特征，包括：

9、s21、针对视频数据，通过预训练的wav2clip进行特征提取，得到视频数据的每帧图像的音频图像特征矩阵和场景图像特征矩阵。

10、s22、根据音频图像特征矩阵构建音频子块关系图，根据场景图像特征矩阵构建场景关系图。

11、s23、根据音频子块关系图、场景关系图以及自适应图转换网络，得到音频子块关系图聚合特征以及场景关系图聚合特征。

12、s24、对音频子块关系图聚合特征以及场景关系图聚合特征进行相似度分数计算，得到音频-场景关联特征。

13、可选地，s22中的根据场景图像特征矩阵构建场景关系图，包括：

14、s221、使用正弦函数和余弦函数为场景图像特征矩阵中的每个图像特征生成位置编码向量，并将位置编码向量添加到对应的场景图像特征矩阵中，得到新的场景图像特征矩阵。

15、s222、将新的场景图像特征矩阵作为节点，将不同节点之间的余弦相似度作为边，构建场景关系图。

16、可选地，s23中的自适应图转换网络，如下式（1）所示：

17、（1）

18、式中，表示生成图表示向量，表示激活函数relu，表示输入的特征矩阵，表示批归一化层，表示的度矩阵，表示输入的邻接矩阵，表示包含自环的邻接矩阵，表示图卷积的权重项，表示图卷积的偏置项，表示融合生成图表示向量和带多头自注意力模块的和，表示层归一化层，表示transformer的多头自注意模块，用表示，表示第一全连接层的权重项，表示第一全连接层的偏置项，表示第二全连接层的权重项，表示第二全连接层的偏置项。

19、可选地，s24中的相似度分数计算过程，如下式（2）所示：

20、（2）

21、式中，表示音频子块关系图聚合特征与场景关系图聚合特征的相似度分数，表示场景关系图聚合特征，表示音频子块关系图聚合特征，表示每个特征向量的索引，表示预先设定的数值。

22、可选地，s3中的根据视频数据以及clip方法，得到场景-人格描述词关联特征，包括：

23、s31、根据视频数据以及图像编码器，生成场景图像嵌入。

24、s32、构建人格描述词列表，根据人格描述词列表以及文本编码器，生成描述嵌入。

25、s33、对场景图像嵌入和描述嵌入进行点积计算，得到相似度分数，根据相似度分数得到场景-人格描述词关联特征。

26、可选地，s4中的根据视频数据以及vggish cnn-rnn方法，得到音频表示特征，包括：

27、s41、根据视频数据得到音频数据，根据音频数据得到对数梅尔频谱图。

28、s42、采用预训练的vggish cnn作为音频模态的特征提取器，对对数梅尔频谱图进行特征提取，得到音频模态特征。

29、s43、对音频模态特征，使用rnn模型进行特征提取，得到音频表示特征。

30、另一方面，提供了一种融合clip和自适应图变换网络的人格预测装置，该装置应用于融合clip和自适应图变换网络的人格预测方法，该装置包括：

31、获取模块，用于获取待进行人格预测的视频数据。

32、音频-场景关联特征提取模块，用于根据视频数据以及wav2clip-graph方法，得到音频-场景关联特征。

33、场景-人格描述词关联特征提取模块，用于根据视频数据以及clip方法，得到场景-人格描述词关联特征。

34、音频表示特征提取模块，用于根据视频数据以及vggish cnn-rnn方法，得到音频表示特征。

35、输出模块，用于将音频-场景关联特征、场景-人格描述词关联特征以及音频表示特征输入到多模态通道注意力残差融合模块，得到融合多模态特征，进而得到人格特质预测结果。

36、可选地，音频-场景关联特征提取模块，进一步用于：

37、s21、针对视频数据，通过预训练的wav2clip进行特征提取，得到视频数据的每帧图像的音频图像特征矩阵和场景图像特征矩阵。

38、s22、根据音频图像特征矩阵构建音频子块关系图，根据场景图像特征矩阵构建场景关系图。

39、s23、根据音频子块关系图、场景关系图以及自适应图转换网络，得到音频子块关系图聚合特征以及场景关系图聚合特征。

40、s24、对音频子块关系图聚合特征以及场景关系图聚合特征进行相似度分数计算，得到音频-场景关联特征。

41、可选地，音频-场景关联特征提取模块，进一步用于，包括：

42、s221、使用正弦函数和余弦函数为场景图像特征矩阵中的每个图像特征生成位置编码向量，并将位置编码向量添加到对应的场景图像特征矩阵中，得到新的场景图像特征矩阵。

43、s222、将新的场景图像特征矩阵作为节点，将不同节点之间的余弦相似度作为边，构建场景关系图。

44、可选地，自适应图转换网络，如下式（1）所示：

45、（1）

46、式中，表示生成图表示向量，表示激活函数relu，表示输入的特征矩阵，表示批归一化层，表示的度矩阵，表示输入的邻接矩阵，表示包含自环的邻接矩阵，表示图卷积的权重项，表示图卷积的偏置项，表示融合生成图表示向量和带多头自注意力模块的和，表示层归一化层，表示transformer的多头自注意模块，用表示，表示第一全连接层的权重项，表示第一全连接层的偏置项，表示第二全连接层的权重项，表示第二全连接层的偏置项。

47、可选地，相似度分数计算过程，如下式（2）所示：

48、（2）

49、式中，表示音频子块关系图聚合特征与场景关系图聚合特征的相似度分数，表示场景关系图聚合特征，表示音频子块关系图聚合特征，表示每个特征向量的索引，表示预先设定的数值。

50、可选地，场景-人格描述词关联特征提取模块，进一步用于：

51、s31、根据视频数据以及图像编码器，生成场景图像嵌入。

52、s32、构建人格描述词列表，根据人格描述词列表以及文本编码器，生成描述嵌入。

53、s33、对场景图像嵌入和描述嵌入进行点积计算，得到相似度分数，根据相似度分数得到场景-人格描述词关联特征。

54、可选地，音频表示特征提取模块，进一步用于：

55、s41、根据视频数据得到音频数据，根据音频数据得到对数梅尔频谱图。

56、s42、采用预训练的vggish cnn作为音频模态的特征提取器，对对数梅尔频谱图进行特征提取，得到音频模态特征。

57、s43、对音频模态特征，使用rnn模型进行特征提取，得到音频表示特征。

58、另一方面，提供一种人格预测设备，所述人格预测设备包括：处理器；存储器，所述存储器上存储有计算机可读指令，所述计算机可读指令被所述处理器执行时，实现如上述融合clip和自适应图变换网络的人格预测方法中的任一项方法。

59、另一方面，提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令，所述至少一条指令由处理器加载并执行以实现上述融合clip和自适应图变换网络的人格预测方法中的任一项方法。

60、本发明实施例提供的技术方案带来的有益效果至少包括：

61、本发明实施例中，介绍了一个多模态特征学习框架，结合了clip和自适应图转换网络，用于显性人格分析，进一步探索多模态关联特征，并提升个性预测的准确性，以解决现有技术的问题。该框架涵盖了视觉、音频和文本模态。本发明提出了一种新方法（wav2clip-graph），用于挖掘视觉和音频模态的音频-场景关联特征。首先，它利用wav2clip从短视频中提取每帧的场景图像和音频图像特征。此外，本发明在这两种模态中构建了关系图，并提出了自适应图转换网络，分别提取音频和场景特征。最后，本发明使用相似度分数作为音频-场景关联特征。另外，本发明利用clip来提取场景人格描述词和个性描述之间的关联特征，以提高框架的准确性。首先，使用clip的文本编码器生成人格描述词的嵌入。其次，使用clip的图像编码器创建场景图像的嵌入。最后，使用点积计算人格描述词的嵌入和图像嵌入之间的相似特征作为场景-描述关联特征。然后，使用两个mlp来降低关联特征的维度。为了充分利用多种模态特征之间的互补性并增强框架的鲁棒性，本发明利用了vggish cnn和rnn模型来提取音频特征。最后，一个多模态通道注意力残差融合模块形成一个特征向量，作为mlp模型的输入，用于预测人格特质。

技术特征：

1.一种融合clip和自适应图变换网络的人格预测方法，其特征在于，所述方法包括：

2.根据权利要求1所述的融合clip和自适应图变换网络的人格预测方法，其特征在于，所述s2中的根据所述视频数据以及wav2clip-graph方法，得到音频-场景关联特征，包括：

3.根据权利要求2所述的融合clip和自适应图变换网络的人格预测方法，其特征在于，所述s22中的根据所述场景图像特征矩阵构建场景关系图，包括：

4.根据权利要求2所述的融合clip和自适应图变换网络的人格预测方法，其特征在于，所述s23中的自适应图转换网络，如下式（1）所示：

5.根据权利要求2所述的融合clip和自适应图变换网络的人格预测方法，其特征在于，所述s24中的相似度分数计算过程，如下式（2）所示：

6.根据权利要求1所述的融合clip和自适应图变换网络的人格预测方法，其特征在于，所述s3中的根据所述视频数据以及clip方法，得到场景-人格描述词关联特征，包括：

7.根据权利要求1所述的融合clip和自适应图变换网络的人格预测方法，其特征在于，所述s4中的根据所述视频数据以及vggish cnn-rnn方法，得到音频表示特征，包括：

8.一种融合clip和自适应图变换网络的人格预测装置，所述融合clip和自适应图变换网络的人格预测装置用于实现如权利要求1-7任一项所述融合clip和自适应图变换网络的人格预测方法，其特征在于，所述装置包括：

9.一种人格预测设备，其特征在于，所述人格预测设备包括：

10.一种计算机可读取存储介质，其特征在于，所述计算机可读取存储介质中存储有程序代码，所述程序代码可被处理器调用执行如权利要求1至7任一项所述的方法。

技术总结
本发明涉及情感计算技术领域，特别是指一种融合CLIP和自适应图变换网络的人格预测方法及装置。所述方法包括：获取待进行人格预测的视频数据；根据视频数据以及Wav2CLIP‑graph方法，得到音频‑场景关联特征；根据视频数据以及CLIP方法，得到场景‑人格描述词关联特征；根据视频数据以及VGGish CNN‑RNN方法，得到音频表示特征；将音频‑场景关联特征、场景‑人格描述词关联特征以及音频表示特征输入到多模态通道注意力残差融合模块，得到融合多模态特征，进而得到人格特质预测结果。本发明提出了一个新颖的多模态特征学习框架，用于从短视频中分析人格特质。

技术研发人员：王荣全,马惠敏
受保护的技术使用者：北京科技大学
技术研发日：
技术公布日：2024/12/5

专利

最新回复(0)