一种基于高阶知识增强的海洋遥感视觉问答方法

本发明属于视觉问答，特别涉及一种基于高阶知识增强的海洋遥感视觉问答方法。

背景技术：

1、海洋遥感图像具有全天时、全天候、全方位等特点，被广泛应用于军事侦察、海上交通管控、海洋污染监控以及资源勘探等重要领域。作为海洋遥感图像的处理与分析的重要手段之一，视觉问答是根据图像回答其对应的问题，主要包括两个重要步骤：其一，对遥感图像和文本进行特征提取，挖掘其深层/高级/语义表征。其二，基于提取的深层/高级/语义表征对问题答案进行预测。前沿视觉问答网络利用多尺度、注意力机制以及图卷积网络等上下文信息挖掘方法，自适应地建模自然语言文本和遥感视觉图像的联系，提升多模态特征表征能力。但是，以上遥感视觉问答方法用于海洋遥感图像中存在以下问题：

2、第一，海洋遥感图像高阶语义空间布局严重失衡，主要体现在高阶语义特征失衡。现有方法在高阶语义建模面临两种问题，一方面，误差生成，建模的高阶特征存在大量噪声。另一方面，在海洋遥感问答系统建模过程中，其更广阔的、更细小的区域，会造成目标信号的信噪比低下，影响多模态特征融合效果。导致以上两种问题的原因都是因为引发歧义的噪声过多，包含遥感成像的高阶特征混淆，从而无法建模最佳的海洋遥感图像的视觉问答模型。

3、第二，海洋遥感图像包含大量复杂噪声。现有的视觉问答方法在原始图像基础上实施特征提取、上下文挖掘、反卷积等操作生成特征表示，但这些特征表示只能描述低阶信息，如颜色、形状、区域等，没有关注引入外部知识图谱的高阶信息。然而，当遇到复杂噪声，会导致图像颜色、形状等低阶特征表现并不稳定，不能自适应地消除/缓解复杂噪声，甚至放大噪声的影响，降低了视觉问答的准确度。

4、第三，海洋遥感图像和自然语言的语义鸿沟。现有的视觉问答方法在原始图像基础上实施特征提取、上下文挖掘、反卷积等操作生成特征表示，并将其直接和文本特征通过级联、门控抑或注意力机制融合在一起。但这些多模态特征表示，本身存在语义鸿沟问题。当缺乏知识图谱关联关联过程中，多模态信息交互、对齐和链接过程中，极易引发表征的不鲁棒特性，更扩大了海洋遥感视觉特征和文本特征的语义鸿沟，降低了视觉问答的准确度。

技术实现思路

1、针对现有技术存在的不足，本发明提供一种基于高阶知识增强的海洋遥感视觉问答方法。

2、为了解决上述技术问题，本发明采用的技术方案是：

3、一种基于高阶知识增强的海洋遥感视觉问答方法，包括以下步骤：

4、步骤s1、提取单模态特征：

5、输入图像-问题对，首先使用骨干网络编码视觉特征和文本特征，把视觉特征和文本特征序列分别传递给视觉和文本嵌入块，输出单模态视觉嵌入和文本嵌入，以获得单模态表示；

6、步骤s2、提取多模态特征：

7、将步骤s1获取的视觉嵌入和文本嵌入输入跨模态上下文融合模块中，利用跨模态局部约束注意力生成高阶的跨模态特征，并输入关注选择块，得到多模态特征；

8、步骤s3、提取知识增强实体关联表示：

9、通过知识增强实体关联模块识别图像-问题对中的视觉和文本实体，并采用知识相关性推理策略来学习知识增强的实体表示，测量每对实体的语义相关距离，并挑选出前k个一致或不一致实体对，这些实体对通过有符号注意力机制进一步融合，以获得一致或不一致的知识增强实体关联表示；

10、步骤s4、生成视觉问答结果：

11、将步骤s2生成的多模态特征与步骤s3生成的知识增强实体关联表示连接起来形成生成答案的表示。

12、进一步的，步骤1中，所述骨干网络为双流结构，包括文本编码器和视觉编码器，用于从文本t和图像v中提取基本特征，分别得到文本特征序列和视觉特征序列层。

13、进一步的，在给定视觉问答的情况下，其中n表示图像-问题对的数量，分别是视觉问答d中的第1，2，……，m，……，n个图像-问题对，每个图像-问题对涉及到两种数据源，分别对应视觉模态和文本模态，表示为，其中表示图像，表示文本，和表示特征维度，v代表视觉，t代表文本，视觉问答中所有图像-问题对的合并输入特征矩阵为，其中，表示两种特征模态，分别是视觉问答d中第1，2，……，n个图像-问题对的合并输入特征矩阵。

14、进一步的，步骤s1中，把视觉特征和文本特征序列分别传递给视觉和文本嵌入块，获得单模态表示的具体步骤如下：

15、首先，将三角形位置嵌入pe直接添加到xi，并定义了用于编码输入特征xi的查询qi、键ki和值vi向量，通过注意力机制获得单个注意力头的注意力权重的注意力图，单个注意力头的查询为、键为、值为向量，h为注意力头的序号，用于计算单个注意力头值的加权和：

16、；

17、其中，k是自注意力机制中的头数，是值的加权和；

18、接着，将多个注意力头的输出进行级联并通过线性变换得到最终输出：

19、；

20、其中，表示级联操作，是一个权重矩阵，a是注意力头的总数，，，……，是第1，2，……，a个注意力头；

21、最后，添加残差连接和层归一化，得到。

22、进一步的，步骤s2中，将单模态表示输入进跨模态上下文融合模块，其中，表示两种特征模态，利用跨模态局部约束注意力模块生成高阶的跨模态特征，再把跨模态特征输入进一个关注选择块，得到多模态特征表示；

23、所述跨模态局部约束注意力模块，包括跨模态局部约束transformer块和跨模态局部约束注意力层，在单模态transformer之后，获取单模态特征的全局时间依赖性之后，应用跨模态局部约束transformer块来获取局部上下文信息，侧重于不同模态之间的交互作用，其中每个跨模态局部约束transformer块与跨模态局部约束注意力层相结合；

24、所述跨模态局部约束注意力层，整合来自不同数据源的信息，计算文本特征与视觉特征之间的相关性或者权重，来决定文本或者视觉特征在转换过程中的重要性；

25、其中，视觉特征的查询、键和数值被定义为，，，为视觉输入，、、分别是视觉特征查询、键和数值的权重矩阵；文本特征的查询、键和数值被定义为，，，为文本输入，，，分别是文本特征查询、键和数值的权重矩阵。

26、进一步的，通过跨模态局部约束注意力为上下文中问题类别和相对位置不同的图像-问题对分配权重，包括问题类别权重qc和相对位置权重rp，具体来说：

27、针对问题类别分配相应的权重，以侧重于与当前提出的问题类别相同的问题，并对不同类别的问题进行建模，问题类别权重如下表示：

28、；

29、其中和分别是图像-问题对和的问题类别，α为问题类别权重的参数值；

30、针对相对位置权重rp，计算了和的相对位置权重表示如下：

31、；

32、其中，n为视觉问答对的实际数量，c、d分别为图像-问题对和的序号，而m和c是超参数，然后将相对位置权重rp输入到sigmoid函数中，最后将其与问题类别权重qc进行逐元素乘积，得到跨模态局部约束注意力lca；

33、视觉特征对文本特征的权重映射加权和为：

34、；

35、其中为权重矩阵；

36、文本特征对视觉特征的权重映射加权和为：

37、；

38、其中为权重矩阵。

39、进一步的，步骤s2中，所述关注选择块，通过模型级融合策略融合两个模态的特征，为不同的模态分配不同的重要性，集合两个模态的内部和跨模态上下文信息，得到多模态特征表示；具体来说：

40、提取图像-问题对的视觉特征、文本特征、跨模态特征，其中是视觉问答中第m个图像-问题对；然后，通过等化所有输入的特征维度并将它们链接在一起；

41、在给定时间，对于输入特征，其中k是模态的数量，代表不同模态的输入特征，将输入特征进行仿射变换，表示模态序号，并通过relu的激活函数进行非线性映射，产生了激活值：

42、；

43、仿射变换是将输入特征通过权重矩阵的线性组合，并加上偏置；计算每个模态的注意力分数：

44、；

45、每个模态的注意力分数，其中k=3，最终的多模态特征生成方式如下：

46、；

47、其中，为各个模态的注意力分数。

48、进一步的，步骤s3中，所述知识增强实体关联模块的具体流程如下：

49、步骤s31、实体识别与链接：从图像和文本识别视觉和文本实体，然后将它们链接在一起生成一个跨模态实体对集合和两个内模态实体对集合；

50、步骤s32、语义相关距离测量：通过知识相关性推理策略测量三个实体对集合中每个实体对的语义相关距离，并构建知识增强的实体表示；

51、步骤s33、建模知识增强的实体关联：从每个集合中选择前k个语义一致性和不一致性的实体对，通过应用来自跨模态上下文融合模块的多模态特征的正向或负向加权注意力，获取各自的知识增强实体关联。

52、进一步的，步骤s32中，定义为文本-文本实体对集合，为图像-图像实体对集合，为文本-图像实体对集合，对于来自、或任意集合的实体对，其中和是实体对中的两个实体，通过度量方法来测量两个实体在预训练知识图谱上的语义相关距离；度量方法利用向量空间中的特征距离和知识图谱拓扑上的图距离，建模语义相关性；

53、其中的计算方式如下：

54、（1）首先在知识图谱中找到连接和的最短语义相关路径；

55、（2）在获得最短语义相关路径后，按以下方式对实体的知识增强实体表示进行细化：

56、；

57、其中是路径中实体的特征嵌入，是权重系数，ρ是实体序号；

58、对称地，对实体的表示进行细化，具体如下：

59、；

60、（3）语义相关距离被计算为和之间的欧式距离：

61、；

62、将连接的特征作为对的知识增强实体表示。

63、进一步的，步骤s33中，通过挑选出前k个最相关或不相关的实体对，并应用带有多模态特征的正或负有符号连接注意力对每个实体对集合中的高阶知识增强实体关联进行建模，获得高阶实体相关性；

64、以为例详细说明这个过程，以学习图像和文本模态之间的知识增强实体关联，具体如下：

65、在中构建两个子集，分别包含与之最关联的前k个实体对或最不相关的前k个实体对，这是通过将中的实体对根据其语义相关距离进行排序来实现的，距离最小的k个实体对被选择为关联子集，距离最大的k个实体对被选择为不相关子集；

66、用表示中实体对的语义相关距离，表示实体对的序号，用表示相应的知识增强实体表示；用表示中实体对的语义相关距离，表示相应的知识增强实体表示；

67、知识增强实体关联模块利用带符号注意力机制进一步融合多模态特征，正符号表示一致性，表示实体之间具有相似的语言特征或关系；负符号表示不一致性，表示实体之间存在不相似或相反的语义特征或关系；具体而言，知识增强实体关联模块采用正向注意力来捕捉图像-问题一致的关联；它将多模态特征作为查询，将语义相关的知识增加实体表示作为键和值，计算一致关联如下：

68、；

69、；

70、其中是的维度，表示正向注意力系数，使用重新加权系数，将语义相关距离纳入一致性表示；

71、同时，知识增强实体关联模块利用负向注意力来获取不一致表示，如下所示：

72、；

73、；

74、然后将表示和连接起来形成对实体对集合的知识增强实体关联表示；

75、类似地，知识增强实体关联模块使用相同的机制获取和的关联和，这些表示被用于最终的答案生成。

76、与现有技术相比，本发明优点在于：

77、第一，充分利用外部知识图谱中包含的背景语义相关性。本发明构建了知识增强实体关联模块，在图像-问题对中识别视觉和文本实体，并设计了一个知识相关性推理策略，以在外部知识图谱中找到每对实体之间的最短语义相关路径并吸收连接实体在该路径中的所有互补上下文知识，以学习知识增强的实体表示。然后测量每对实体的语义相关距离，并挑选出前k个一致性/不一致性实体对，这些实体对通过有符号注意力机制进一步融合，以获取一致性/不一致性的知识增强实体关联。

78、第二，引入类别高阶知识的注入。本发明通过在跨模态上下文融合模块中引入跨模态局部约束注意力，跨模态局部约束注意力引入了类别高阶知识的注入。首先对问题类别进行掩码，给予与当前问题类别相同的上下文信息更高的权重，其次，对固定窗口内根据上下文信息相对位置分配权重，并与问题类别掩码做加权乘法，得到固定窗口内问题类别的权重。将类别高阶知识充分注入，可以有效提取上下文图像-问题对信息，增强模型的鲁棒性，生成准确的视觉问答结果。

技术特征：

1.一种基于高阶知识增强的海洋遥感视觉问答方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于高阶知识增强的海洋遥感视觉问答方法，其特征在于，步骤1中，所述骨干网络为双流结构，包括文本编码器和视觉编码器，用于从文本t和图像v中提取基本特征，分别得到文本特征序列和视觉特征序列层。

3.根据权利要求1所述的基于高阶知识增强的海洋遥感视觉问答方法，其特征在于，在给定视觉问答的情况下，其中n表示图像-问题对的数量，分别是视觉问答d中的第1，2，……，m，……，n个图像-问题对，每个图像-问题对涉及到两种数据源，分别对应视觉模态和文本模态，表示为，其中表示图像，表示文本，和表示特征维度，v代表视觉，t代表文本，视觉问答中所有图像-问题对的合并输入特征矩阵为，其中，表示两种特征模态，分别是视觉问答d中第1，2，……，n个图像-问题对的合并输入特征矩阵。

4.根据权利要求3所述的基于高阶知识增强的海洋遥感视觉问答方法，其特征在于，步骤s1中，把视觉特征和文本特征序列分别传递给视觉和文本嵌入块，获得单模态表示的具体步骤如下：

5.根据权利要求1所述的基于高阶知识增强的海洋遥感视觉问答方法，其特征在于，步骤s2中，将单模态表示输入进跨模态上下文融合模块，其中，表示两种特征模态，利用跨模态局部约束注意力模块生成高阶的跨模态特征，再把跨模态特征输入进一个关注选择块，得到多模态特征表示；

6.根据权利要求5所述的基于高阶知识增强的海洋遥感视觉问答方法，其特征在于，通过跨模态局部约束注意力为上下文中问题类别和相对位置不同的图像-问题对分配权重，包括问题类别权重qc和相对位置权重rp，具体来说：

7.根据权利要求1所述的基于高阶知识增强的海洋遥感视觉问答方法，其特征在于，步骤s2中，所述关注选择块，通过模型级融合策略融合两个模态的特征，为不同的模态分配不同的重要性，集合两个模态的内部和跨模态上下文信息，得到多模态特征表示；具体来说：

8.根据权利要求1所述的基于高阶知识增强的海洋遥感视觉问答方法，其特征在于，步骤s3中，所述知识增强实体关联模块的具体流程如下：

9.根据权利要求8所述的基于高阶知识增强的海洋遥感视觉问答方法，其特征在于，步骤s32中，定义为文本-文本实体对集合，为图像-图像实体对集合，为文本-图像实体对集合，对于来自、或任意集合的实体对，其中和是实体对中的两个实体，通过度量方法来测量两个实体在预训练知识图谱上的语义相关距离；度量方法利用向量空间中的特征距离和知识图谱拓扑上的图距离，建模语义相关性；

10.根据权利要求8所述的基于高阶知识增强的海洋遥感视觉问答方法，其特征在于，步骤s33中，通过挑选出前k个最相关或不相关的实体对，并应用带有多模态特征的正或负有符号连接注意力对每个实体对集合中的高阶知识增强实体关联进行建模，获得高阶实体相关性；

技术总结
本发明属于视觉问答技术领域，公开了一种基于高阶知识增强的海洋遥感视觉问答方法，包括：步骤S1、提取单模态特征；步骤S2、提取多模态特征：利用跨模态局部约束注意力生成高阶的跨模态特征，并输入关注选择块，得到多模态特征；步骤S3、提取知识增强实体关联表示：通过知识增强实体关联模块识别图像‑问题对中的视觉和文本实体，并采用知识相关性推理策略来学习知识增强的实体表示，然后对实体融合获得知识增强实体关联表示；步骤S4、生成视觉问答结果：将步骤S2生成的多模态特征与步骤S3生成的知识增强实体关联表示连接起来形成生成答案的表示。通过本发明可以有效提取上下文图像‑问题对信息，生成准确的视觉问答结果。

技术研发人员：聂婕,万紫意,赵恩源,张泽,梁馨月,叶敏
受保护的技术使用者：中国海洋大学
技术研发日：
技术公布日：2024/12/5

专利

最新回复(0)