本发明涉及多模态信息真伪鉴别领域,尤其是涉及一种面向社交媒体多模态信息的真伪鉴别方法。
背景技术:
1、当今世界是自媒体的时代,社交网络的易参与性使得社交媒体上的信息呈爆炸性地增长,在真实而有用的信息被传递的同时,虚假而无用的信息也在这势不可挡的浪潮中得以散播,这无疑会造成大规模的负面影响,深度学习等人工智能技术迅猛发展,而基于相关技术对社交媒体信息真伪鉴别问题的研究也因此而不断地涌现,并成为了如今的主流方向。早期的研究方法通常注重文本内容,而这也是网络媒体信息的主要描述形式。随着社交媒体信息内容由单一的文本逐渐演变为多种模态(通常是文本和图片)的组合,仅对文本内容进行分析的虚假信息检测研究已不满足当前的发展需要。
2、目前基于多模态信息的真伪鉴别研究方法在特征提取方面多基于预训练模型构建,singhal等人[1]提出了spotfake框架,其中使用bert[2]提取文本特征,而图像特征则是基于在imagenet数据集[3]上预训练的vgg-19[4]所编码得到,综合两种模态特征进行真伪鉴别检测。在此基础上,该团队[5]之后又提出了spotfake+框架,将文本特征提取器更换为预训练的xlnet[6],可以检测完整文章。singh等人[7]则是选择bert[8]和electra[9]的结合来提取文本模态特征。一些研究认为仅仅分析视觉模态特征和文本模态特征对于真伪鉴别检测任务而言是不够充分的,而是综合三部分特征获得分类结果。刘等人[10]基于densenet[11]提取了图像内嵌入的文本内容,zhang等人[12]额外对上下文场景信息进行建模研究,xue等人[13]通过ela算法[14]额外提取了图像篡改特征用于检测。而对于多模态特征的融合方面,当前的研究多使用简单的拼接[15][16][17]或加法操作[18]将不同的特征组合获得最终的分类结果,考虑到这种融合方法过于简单,无法充分利用多模态的信息,singh等人[19]将视觉模态和文本模态特征通过平均概率得到了决策级的融合实现了训练参数的大幅缩减,既提高了性能,又加快了速度。
3、另一方面,跨模态语义相关性在多模态信息的真伪鉴别研究中受到了越来越多的关注[20][21][22]。zhou等人[23]基于生成模型将视觉信息转换为文本信息,将两种模态间的跨模态相关性定义为余弦相似度。而khattar等人[24]则设计了一个专门的变分自编码器重构视觉信息和文本信息,从而对文本和图片间的跨模态相关性进行量化,该方法虽然具有良好的效果但计算成本很高。wang等人[25]则设计了一个多任务学习框架,将多模态信息拼接后输入一个事件鉴别器进而过滤掉有关事件的信息只保留通用的特征,从而实现精确的检测。但当前的研究缺乏对跨模态语义相关性的深入建模,无法充分对跨模态语义关系进行学习,使得真伪鉴别模型的效果难以获得进一步的突破。
技术实现思路
1、本发明的目的就是为了充分学习不同模态特征间的语义相关性,提高社交媒体多模态信息真伪鉴别模型的识别准确率而提供的一种面向社交媒体多模态信息的真伪鉴别方法。
2、本发明的目的可以通过以下技术方案来实现:
3、一种面向社交媒体多模态信息的真伪鉴别方法,方法包括以下步骤:
4、s1、构建多模态特征提取模块;
5、s2、基于原始数据集构建图文对数据集,将图文对数据集输入多模态特征提取模块,得到嵌入空间的视觉特征和文本特征,将视觉特征和文本特征输入混合池化专家框架,输出损失函数,基于损失函数迭代训练混合池化专家框架;
6、s3、获取给定的语义对齐的视觉模态特征和文本模态特征,语义对齐的视觉模态特征和文本模态特征输入跨模态语义融合模块中,结合激活函数和可调整性因子,跨模态语义融合模块输出跨模态相关性融合特征;
7、s4、跨模态相关性融合特征输入真伪鉴别分类网络,基于真伪鉴别分类网络的输出迭代训练跨模态语义融合模块和真伪鉴别分类网络,得到训练完成的跨模态语义融合模块和真伪鉴别分类器,然后获取实际的待鉴别社交媒体多模态数据,实际的待鉴别社交媒体多模态数据输入训练完成的混合池化专家框架,输出实际对齐数据,实际对齐数据输入训练完成的跨模态语义融合模块和真伪鉴别分类器,输出社交媒体多模态信息鉴别结果。
8、进一步地,所述将图文对数据集输入多模态特征提取模块,得到嵌入空间的视觉特征和文本特征具体为:
9、将图文对数据集输入多模态特征提取模块,所述多模态特征提取模块包括基于vit构建的视觉编码器和文本编码器,图文对数据集输入多模态特征提取模块后,多模态特征提取模块将数据集中的图像数据调整为展平的二维补丁序列,并将二维补丁序列转化为线性嵌入,线性嵌入和二维补丁序列的位置嵌入结合作为视觉编码器的输入,视觉编码器输出嵌入空间的视觉特征;
10、多模态特征提取模块将数据集中的文本数据和文本数据的位置嵌入输入文本编码器中,文本编码器输出嵌入空间的文本特征。
11、进一步地,所述图文对数据集中包括m对正例图文和m(m-1)对负例图文。
12、进一步地,所述文本编码器基于预训练的bert构造,并使用线性映射将token嵌入进行处理。
13、进一步地,语义对齐的视觉模态特征和文本模态特征输入跨模态语义融合模块中,结合激活函数和可调整性因子,跨模态语义融合模块输出跨模态相关性融合特征的具体步骤为:
14、对于给定的语义对齐的视觉模态特征和文本模态特征跨模态语义融合模块计算模态间的注意力权重,所述注意力权重为视觉模态特征和文本模态特征的点乘,注意力权重加上可调整性因子后经过relu激活函数,得到文本注意力相关分数corret→g和视觉注意力相关分数correg→t,文本注意力相关分数corret→g与文本模态特征相乘,视觉注意力相关分数correg→t与视觉模态特征相乘,计算得到文本模态特征和视觉模态特征分别对应的相关性特征tcorre和gcorre,两个相关性特征拼接后得到跨模态相关性融合特征f。
15、进一步地,所述跨模态相关性融合特征输入真伪鉴别分类网络,基于真伪鉴别分类网络的输出迭代训练跨模态语义融合模块和真伪鉴别分类网络的具体步骤为:
16、获取给定的语义对齐的视觉模态特征和文本模态特征,以及跨模态相关性融合特征,一起输入真伪鉴别分类网络,真伪鉴别分类网络中的注意力模块对真伪鉴别分类网络的输入赋予不同权重,并通过变分自动编码器生成的特征分布计算权重的损失函数,基于损失函数迭代训练训练跨模态语义融合模块和真伪鉴别分类网络。
17、进一步地,所述通过变分自动编码器生成的特征分布计算权重的损失函数具体为:
18、将给定的语义对齐的视觉模态特征和文本模态特征分别输入变分自动编码器,基于变分自动编码器生成的特征分布计算两个分布的kl散度,基于kl散度和注意力模块赋予的权重计算权重的损失函数。
19、进一步地,所述给定的语义对齐的视觉模态特征和文本模态特征由训练完成的混合池化专家框架输出。
20、进一步地,所述注意力模块为se-resnet注意力模块。
21、进一步地,所述混合池化专家框架由路由门模块、聚合专家模块和损失函数模块组成。
22、与现有技术相比,本发明具有以下有益效果:
23、本发明集成了多模态特征提取模块,跨模态语义对齐模块,跨模态语义融合模块以及真伪鉴别分类器模块,充分学习不同模态特征间的语义相关性,利用对齐的单模态特征以及跨模态语义融合的特征共同对真伪鉴别结果进行决策,从而改善检测的效果。
1.一种面向社交媒体多模态信息的真伪鉴别方法,其特征在于,方法包括以下步骤:
2.根据权利要求1所述的一种面向社交媒体多模态信息的真伪鉴别方法,其特征在于,所述将图文对数据集输入多模态特征提取模块,得到嵌入空间的视觉特征和文本特征具体为:
3.根据权利要求2所述的一种面向社交媒体多模态信息的真伪鉴别方法,其特征在于,所述图文对数据集中包括m对正例图文和m(m-1)对负例图文。
4.根据权利要求3所述的一种面向社交媒体多模态信息的真伪鉴别方法,其特征在于,所述文本编码器基于预训练的bert构造,并使用线性映射将token嵌入进行处理。
5.根据权利要求1所述的一种面向社交媒体多模态信息的真伪鉴别方法,其特征在于,语义对齐的视觉模态特征和文本模态特征输入跨模态语义融合模块中,结合激活函数和可调整性因子,跨模态语义融合模块输出跨模态相关性融合特征的具体步骤为:
6.根据权利要求1所述的一种面向社交媒体多模态信息的真伪鉴别方法,其特征在于,所述跨模态相关性融合特征输入真伪鉴别分类网络,基于真伪鉴别分类网络的输出迭代训练跨模态语义融合模块和真伪鉴别分类网络的具体步骤为:
7.根据权利要求6所述的一种面向社交媒体多模态信息的真伪鉴别方法,其特征在于,所述通过变分自动编码器生成的特征分布计算权重的损失函数具体为:
8.根据权利要求6所述的一种面向社交媒体多模态信息的真伪鉴别方法,其特征在于,所述给定的语义对齐的视觉模态特征和文本模态特征由训练完成的混合池化专家框架输出。
9.根据权利要求6所述的一种面向社交媒体多模态信息的真伪鉴别方法,其特征在于,所述注意力模块为se-resnet注意力模块。
10.根据权利要求1所述的一种面向社交媒体多模态信息的真伪鉴别方法,其特征在于,所述混合池化专家框架由路由门模块、聚合专家模块和损失函数模块组成。
