本发明属于目标跟踪,具体涉及一种基于特征局部校正和多模态信道稀疏选择提示的红外跟踪方法。
背景技术:
1、基于提示微调的方法范式已成为当前研究者们的热点,在视觉领域,一些研究通过在冻结的基础模型中添加可学习的视觉提示,研究表明,视觉提示学习有望成为完全微调的替代方法。最近的一些工作将模态提示添加到冻结的可见光跟踪器中,用于可见光红外多模态跟踪,取得了与完全微调相当的性能。
2、虽然模态提示以一种简单有效的方式提高了可见光预训练大模型在热红外域的表征能力,但是其存在的不足之处在于,首先1)它们往往忽略了数据的特有属性,如模态间的空间对齐问题,可能导致信息处理的不准确,从而影响模型后续准确的特征表达;2)它们设计的提示模块只考虑了空间信息,未能充分考虑到从语义级别上进行深入的信息融合和交互。因此这两点不足导致模态信息未能充分融合和互补,从而限制了跟踪性能。
3、公开号为cn117522923a的融合多模态特征的目标跟踪系统及方法,介绍了一种融合多模态特征的目标跟踪系统及方法,其利用深度学习技术,分别从目标跟踪的rgb图像和热红外图像中提取rgb特征和热红外特征,通过线性组合的方式将rgb特征和热红外特征进行特征融合后再使用残差注意力机制来自适应调整空间维度和通道维度上的特征权重,最后通过分类器判断目标对象是否脱离跟踪范围。但是由于该技术利用的仍是基于注意力机制的方法,模态信息融合后仍然可能存在信息冗余和特征不准确的情况,故该方法的结果仍然有较大的提升空间。
4、在现有技术框架下,对于多模态数据集的处理主要聚焦于直接提取和处理这些数据的特征信息。这种方法通常采用模态融合的技术,以实现不同数据源的特征整合,但它们往往忽略了数据的特有属性,如模态间的空间对齐问题。具体来说,这些技术假定不同模态之间的空间对齐是完备的,而实际应用中这种假设往往不成立,可能导致信息处理的不准确,从而影响模型后续准确的特征表达。
5、此外,虽然当前方法考虑了特征层面的模态交互,这种处理仍然局限于较为表面的特征级联或简单融合,缺乏对模态之间深层次语义关系的探索。在提示信息生成器的设计中,尽管有努力去整合和交互空间位置信息,但这种方法未能充分考虑到从语义级别上进行深入的信息融合和交互。这种语义层次的忽视可能导致生成的提示信息无法准确反映不同模态数据的内在联系和复杂性。
技术实现思路
1、为了克服上述现有技术存在的不足,本发明的目的在于提供一种基于特征局部校正和多模态信道稀疏选择提示的红外跟踪方法,该方法通过提示模块从语义空间两个角度考虑了不同模态特征的内在联系和互补性,提高了提示信息的有效性。通过特征校正模块,有效解决了因空间未对齐造成的特征偏差问题。
2、为了实现上述目的,本发明采用的技术方案是:
3、基于特征局部校正和多模态信道稀疏选择提示的红外跟踪方法,包括以下步骤;
4、步骤(1):将多模态视频,即时间上对齐的红外图像视频和可见光图像视频,按照时间顺序截取为多帧静止图像,得到数据集,对于某一个时刻,数据集中包含成对的可见光和热红外图像,对于训练阶段和跟踪阶段进行不同操作;
5、步骤(2):对于训练阶段:网络包括特征嵌入层、局部特征校正模块、基础网络、提示模块和跟踪头,多模态数据从特征嵌入层输入,最后从跟踪头输出跟踪结果,训练过程中将数据集输入到网络中,将最终输出与真实标签计算损失,从而得到梯度来更新微调网络权重参数,得到算法网络权重,在跟踪阶段的网络加载权重时,使用该网络权重参数进行推理;
6、步骤(3):对于跟踪阶段:加载训练阶段得到的算法网络权重,然后在视频首帧中标注出目标所在位置,并在未来帧中持续跟踪该目标,输出该目标的位置信息。
7、所述步骤(2)具体为:
8、(2.1)获取训练图像对:通过抽取以目标为中心的多模态模板和多模态搜索图像,从带标注的多模态视频数据集中获得成对图像帧,两帧都包含目标,并且最多间隔t帧,所述两帧为后续网络训练需要可见光的模板图和搜索图、红外的模板图和搜索图,这两帧中,其中一帧的可见光和和红外图像作为搜索图,另外一帧的可见光和和红外图像作为模板图;此时网络输入是一对可见光模板搜索图和一对对应的热红外模板搜索图;同时,目标的类别在训练时被忽略,每个图像内的目标比例被归一化,从而保持图像的宽高比;
9、(2.2)预处理图像对:在训练的过程中,对于两个多模态模板和多模态搜索图像进行调整、缩放图像,使边界框加上上下文的附加空白具有固定的区域;
10、(2.3)patchembedding提取图像patch特征:对两对多模态模板搜索图进行二维卷积,将会得到可见光模板图特征和可见光搜索图特征,热红外模板图特征和热红外模板图特征;
11、(2.4)模态局部特征校正:将热红外特征作为查询q,可见光特征作为k,v,利用交叉注意力机制权重对v加权,依次得到辅助图特征,最后将辅助图与热红外特征加和得到校正后特征,可见光特征保持不变;
12、(2.5)生成提示信息:使用模态稀疏信道选择提示模块,对于第一层提示模块,将可见光特征和校正后的热红外特征作为输入,而对于后续的提示模块,将基础网络输出的特征和上一层提示模块的输出作为输入,将两个特征池化加和后使用不同的线性变化解耦出特征特异的信道特征,拼接后横向求两个输入的信道权重,此外,对于可见光(由基础网络输入)的特征,由信道权重加权后还需要使用空间注意力机制再次加权,之后将两个加权后的输入进行加和,得到提示信息;
13、(2.6)基础网络前向传播:将(2.5)中得到的提示信息与对应层的编码器的输出加和,从而构成下一层编码器的输入;得到最终的特征图;
14、(2.7)将所述最终的特征图输入输进中心跟踪头,使用中心跟踪头获取目标中心位置、中心偏移量和目标尺寸,通过中心分支获得特征图中的响应,即响应特征图,通过偏移分支获取该中心位置的偏移量,进一步微调目标位置,最后通过尺寸分支获取该中心位置的长和宽;
15、(2.8)求出响应特征图与真实特征图的分布差异损失值和预测框和真实框之间中心位置和iou的损失值并反向传播。
16、所述步骤(2.1)中,带标注的多模态视频数据集为网上公开有rgbt234和gtot两个可见光红外目标跟踪数据集;
17、将其中不同帧(不同时刻)的可见光图像分别作为搜索图和模板图,不同帧(不同时刻)的红外图像分别作为搜索图和模板图,于是得到可见光模板图和搜索图,和对应的热红外模板图和搜索图。
18、所述步骤(2.2)中,如果边界框的尺寸是(w,h),上下文的边界是p,缩放因子是s,被选择用来使尺度调整后的矩形的面积是一个常数a=s(w+2p)×s(h+2p)。使用模板图像的面积a=128×128,设置上下文的数量为平均维度p=(w+h)/4的一半,每帧的模板和搜索图像被离线处理,以避免在训练的过程中调整图像大小。
19、所述步骤(2.4)中,热红外特征为搜索图特征和模板图特征;可见光特征为搜索图特征和模板图特征;
20、设计模态局部特征自适应校正模块,该结构主要分为两个部分,第一部分是使用交叉注意力机制,产生辅助特征图,第二部分是校正过程,将辅助特征图与原始红外特征加和,得到校正后特征,通过该结构校准红外局部偏移特征,降低链式传递过程中出现信息累计偏差的可能性;
21、来自可见光模态和热红外模态,分别表示为和的标记序列构成该模块的输入,首先将两个首层输入,可见光特征和红外特征拆分为{zrgb,xrgb}和{ztir,xtir},z,x分别代表模板图特征和搜索图特征,然后{zrgb,xrgb}通过gatek(·)和gatev(·)后得到:
22、
23、{ztir,xtir}通过gateq(·)后得到:
24、
25、此处的gatek(·),gatev(·),gateq(·)是1×1卷积,通过q查询k中相似像素,构建模态特征像素相似性矩阵,再与v加权得到辅助特征图;
26、
27、最后将之与{ztir,xtir}加和拼接后得到矫正后红外特征:
28、htir′=concat(ztir+auxmapz,xtir+auxmapx)。
29、所述步骤(2.5)中,提示模块12层,每一层的输入由前一层网络的输出和对应层的提示模块的输出加和而来;
30、模态提示模块插入到骨干网络的多阶段中,两种模态的初始输入标记序列为以及一个包含l层的冻结基础编码器,设计的模态稀疏信道选择提示模块是用这两个输入流学习提示信息,该过程写成:
31、
32、其中,mcspl(·)代表第l层稀疏模态通道选择提示器,p l+1(l=0,1,...,l-1)代表不同层级的提示信息,特别的是,当l=0时,p 0=htir′,即(2.4)中特征校正模块的输出。
33、模态稀疏信道选择提示模块包括四个步骤:
34、(i)特征池化后融合解耦;
35、(ii)使用稀疏top-k选择模态显著通道;
36、(iii)利用横向通道权重对原始特征加权;
37、(iv)基础网络特征通过空间注意力后与提示特征加和生成多模态提示。
38、所述步骤(2.6)中,编码器也是上文中提到的基础网络,编码是基础网络的作用,编码器由完全相同的12层transformerblock叠加组成,每一个block中包含由自注意力计算和前馈神经网络,编码器共有12层,该过程需要重复12次。
39、所述步骤(2.8)中,首先使用focal loss损失函数计算响应特征图和由真实标签位置信息生成的高斯特征图之间的损失值,然后使用l1 loss计算预测值(x,y,w,h)和真实值(gtx,gty,gtw,gth)的损失值,最后再使用giou loss计算预测值(x,y,w,h)和真实值(gtx,gty,gtw,gth)的iou损失值,将以上损失值加权相加,使用计算得到损失值反向传播更新网络参数,循环训练多次,直至网络收敛,在更新过程中,冻结基础模型权重,不参与更新。
40、focal loss具体计算如下:
41、
42、fl(pt)=-(1-pt)γlog(pt)
43、
44、其中w,h是响应图的宽高,y是由真实标签位置信息生成的高斯特征图,γ为常数;
45、l1 loss具体计算如下:
46、
47、其中n为计算总样本的数量。
48、giou loss具体计算如下:
49、
50、其中a代表预测框(x,y,w,h),b代表真实框(gtx,gty,gtw,gth),c代表a和b的最小外接矩形框。
51、所述步骤(3)具体为:
52、(3.1)获取模板图:按照步骤(2.2)中处理模板图像的方法处理待跟踪的多模态视频的首帧图像作为本次跟踪的模板图像;
53、(3.2)将最终输出特征输入到跟踪头:将裁剪后的多模态搜索图和多模态模板图输入到整个算法网络,算法网络由基础网络、特征校正模块和提示模块构成,得到被热红外信息提示过的搜索图像特征图,最终通过跟踪头得到最大响应分数的位置,取对应分数响应最高的偏移分支的预测值来精细化目标中心位置,再取对应分数响应最高的尺寸分支的预测值作为最终目标长宽的预测值;
54、(3.3)裁剪下一帧搜索图:在每一帧跟踪结束后会以当前预测位置为中心裁剪下一帧跟踪的搜索图像,直至跟踪到最后一帧。
55、本发明的有益效果:
56、(1)本发明提出了一个稀疏信道选择提示模块,将两模态信息池化加和后使用不同的线性变化解耦出特征特异的信道特征,然后自适应并行化进行稀疏信道选择,可以充分利用不同模态最为显著的信道表征生成鲁棒准确的提示信息,充分发挥基础模型的表征优势。
57、(2)本发明设计了一个局部特征校正模块,该模块利用热红外信息查询可见光突出信息,生成热红外局部校正特征,并与原始特征相加。它可以充分利用目标被标注框准确包围的可见光的显著特征来自适应学习纠偏关系,获得更准确的热红外特征。
1.基于特征局部校正和多模态信道稀疏选择提示的红外跟踪方法,其特征在于,包括以下步骤;
2.根据权利要求1所述的基于特征局部校正和多模态信道稀疏选择提示的红外跟踪方法,其特征在于,所述步骤(2)具体为:
3.根据权利要求2所述的基于特征局部校正和多模态信道稀疏选择提示的红外跟踪方法,其特征在于,所述步骤(2.1)中,带标注的多模态视频数据集为网上公开有rgbt234和gtot两个可见光红外目标跟踪数据集;
4.根据权利要求2所述的基于特征局部校正和多模态信道稀疏选择提示的红外跟踪方法,其特征在于,所述步骤(2.2)中,如果边界框的尺寸是(w,h),上下文的边界是p,缩放因子是s,被选择用来使尺度调整后的矩形的面积是一个常数a=s(w+2p)×s(h+2p);使用模板图像的面积a=128×128,设置上下文的数量为平均维度p=(w+h)/4的一半,每帧的模板和搜索图像被离线处理,以避免在训练的过程中调整图像大小。
5.根据权利要求2所述的基于特征局部校正和多模态信道稀疏选择提示的红外跟踪方法,其特征在于,所述步骤(2.4)中,热红外特征为搜索图特征和模板图特征;可见光特征为搜索图特征和模板图特征;
6.根据权利要求5所述的基于特征局部校正和多模态信道稀疏选择提示的红外跟踪方法,其特征在于,所述步骤(2.5)中,提示模块12层,每一层的输入由前一层网络的输出和对应层的提示模块的输出加和而来;
7.根据权利要求6所述的基于特征局部校正和多模态信道稀疏选择提示的红外跟踪方法,其特征在于,所述步骤(2.6)中,编码器也是上文中提到的基础网络,编码是基础网络的作用,编码器由完全相同的12层transformer block叠加组成,每一个block中包含由自注意力计算和前馈神经网络,编码器共有12层,该过程需要重复12次。
8.根据权利要求2所述的基于特征局部校正和多模态信道稀疏选择提示的红外跟踪方法,其特征在于,所述步骤(2.8)中,首先使用focalloss损失函数计算响应特征图和由真实标签位置信息生成的高斯特征图之间的损失值,然后使用l1loss计算预测值(x,y,w,h)和真实值(gtx,gty,gtw,gth)的损失值,最后再使用giou loss计算预测值(x,y,w,h)和真实值(gtx,gty,gtw,gth)的iou损失值,将以上损失值加权相加,使用计算得到损失值反向传播更新网络参数,循环训练多次,直至网络收敛,在更新过程中,冻结基础模型权重,不参与更新。
9.根据权利要求8所述的基于特征局部校正和多模态信道稀疏选择提示的红外跟踪方法,其特征在于,focal loss具体计算如下:
10.根据权利要求2所述的基于特征局部校正和多模态信道稀疏选择提示的红外跟踪方法,其特征在于,所述步骤(3)具体为:
