本发明属于计算机视觉目标跟踪,具体涉及一种基于模态感知特征学习的rgbt目标跟踪方法。
背景技术:
1、可见光传感器的应用十分广泛,但其在弱光环境和恶劣天气下受到诸多限制,导致图像质量和可视距离下降,无法满足全天候应用需求。为此,研究人员采用多模态光电传感器融合的策略,将可见光传感器与热红外传感器相结合,以获取更加全面的信息。热红外传感器可通过探测物体所发出的红外辐射,获取其热能,从而提供可见光传感器难以捕获的信息。多模态信息融合将实现两种信息互补,构建更为鲁棒的特征表示,提高深度模型性能,以应对更加复杂的应用场景。
2、rgbt目标跟踪任务的主要目标是利用可见光和热光谱的互补特征构建鲁棒的全天候跟踪器,并应用于军事行动、野外搜救、安防巡检、辅助驾驶、人群密度估计等众多领域。在rgbt目标跟踪任务中,根据初始帧中人为给定的标签,持续预测后续帧中的目标位置信息。目前,已经有多种跟踪方法利用可见光和热光谱的互补特性取得了较好的性能,但在从异构模态中提取有利于实例表征的判别性特征以及精确估计目标边界框并解决尺度变化、遮挡等跟踪挑战等方面仍需进一步研究。
3、当前有两种主流的研究思路:一种是探索多层特征的提取,构建可靠的特征表达来提高跟踪精度;另一种是研究模态融合权重的分配,实现特征的自适应选择。然而,在面对具有挑战性的场景,如目标遮挡、外观变化和尺度变化等情况下,现有跟踪方法的性能可能会下降。
技术实现思路
1、本发明要解决的问题是:现有rgbt目标跟踪方案在复杂场景,如目标遮挡、外观变化和尺度变化等情况下,性能下降,不能满足使用需求。本发明通过引入模态感知特征学习的方法,提升rgbt目标跟踪器的稳定性和性能表现。
2、本发明的技术方案为:一种基于模态感知特征学习的rgbt目标跟踪方法,构建目标跟踪模型用于rgbt目标跟踪任务,包括以下步骤:
3、步骤s1:构建目标跟踪数据集,采集rgbt跟踪视频序列用于模型训练和测试;
4、步骤s2:构建目标跟踪模型,包括特征提取模块、模态感知模块、transformer融合模块、三分支预测头以及模板更新模块,具体如下:
5、步骤s2.1:对经过预处理配准的可见光和热红外图像分别获得目标模板和搜索区域的图像,作为目标跟踪模型的输入;
6、步骤s2.2:特征提取模块为双通道特征提取模块,分别提取可见光和热红外图像的目标模板和搜索区域特征,共4组特征;
7、步骤s2.3:模态感知模块对步骤s2.2所提取的特征,先采用通道特征聚合与分发机制,利用注意力机制分别进行可见光和热红外的多模态鲁棒特征学习,实现目标模板和搜索区域的特征增强,由不同模态下目标模板的增强特征叠加得到模板融合特征,然后进行空间特征相似度感知,对经由注意力机制所生成的不同模态的通道增强特征,采用空间特征相似度计算,进行特征筛选,增强搜索区域不同模态的特征,叠加后得到搜索区域融合特征;
8、步骤s2.4:对模板融合特征和搜索区域融合特征进行特征扁平化操作,采用1×1卷积将特征转换成向量;
9、步骤s2.5:由transformer融合模块对扁平化后的特征向量计算目标模板特征和搜索区域特征之间的相关性,得到融合向量;
10、步骤s2.6:融合向量经三分支预测头得到预测结果,三分支预测头由三个分支组成,分别是分类、定位和回归分支,通过约束损失实现三分支相互关联,依据置信度得分排序,输出目标跟踪结果;
11、步骤s2.7:根据步骤s2.6的预测结果,模板更新模块依据置信度得分对目标模板状态进行分类,根据更新策略选择是否更新目标模板,实现目标模板的自适应更新,保持目标模板的可靠性;
12、步骤s3:离线训练,使用adamw优化器训练模型直至损失收敛,获取训练好的模型参数,其中模板更新模块不需要训练;
13、步骤s4:在线跟踪:
14、步骤s4.1:获取视频序列第一帧的标签作为初始跟踪目标,通过目标跟踪模型输出预测值,然后选取置信度得分最高的区域,获取初步的跟踪结果;
15、步骤s4.2:根据结果的置信度得分判断当前目标模板状态,依据更新策略和当前状态,选择是否更新模板或是重置模板;
16、步骤s4.3:重复步骤s4.1-s4.2,逐步计算每一帧目标跟踪结果,自适应更新模板保持目标模板的可靠性,完成整体rgbt序列的目标跟踪任务。
17、进一步的,步骤s2.3中,用通道聚合与分发机制实现通道特征增强,具体如下:
18、dg=fg(gap(fr+ft)) (1)
19、
20、上式中,表示一对从步骤s2.2中获取的rgbt目标模板特征,公式(1)中gap表示全局平均池化操作,fg表示全连接层,dg表示全局池化的向量特征,在通道特征聚合阶段,将可见光特征fr与热红外特征ft相加,然后通过全局平均池化操作,最后经过全连接层输出通道注意力权重;在通道特征分发阶段,公式(2)中fi表示一个双分支全连接层分发特征,r表示可见光模态,t表示热红外模态,σ表示sigmoid函数,最后将权重与原始特征fiz相乘生成增强的特征以表示一对从步骤s2.2中获取的rgbt搜索区域特征,同理由得到
21、进一步的,s2.3中,空间特征相似度感知采用空间相似度计算机制,通过相似性学习来产生感知实例的残差,具体如下:
22、
23、
24、
25、上式中,si表示相似性特征图,fconv表示卷积操作,up表示双线性插值上采样,表示增强特征,*表示卷积运算,σ表示sigmoid函数,公式(4)表示最终的模板融合特征由热红外和可见光增强特征相加获得,公式(5)表示最终的搜索区域融合特征由可见光和热红外两种模态特征与所对应的相似性图si分别相乘生成残差图,然后与对应的热红外和可见光增强特征相加获得。
26、作为本发明的进一步改进,步骤s2.6中,通过约束损失实现三分支相互关联,具体如下:
27、lcls=-∑j((yjlog(pj)iou+(1-yj)log(1-pj))) (6)
28、
29、
30、loss=n1lcls+n2lreg+n3lloc (9)
31、上式中,lcls表示分类损失,采用基于iou加权二元交叉熵损失构建,yj表示第j个样本的标号,yj=1表示正样本,pj表示属于前景的概率,iou表示预测值与真实值的交集;lreg表示回归损失,包括l1范数损失和lciou损失两部分,bj表示第j个边界框,pj表示正样本对应的分类置信度,λ1和λc均表示正则化参数;lloc表示定位损失,oj为回归分支计算的iou得分,表示定位分支的预测值;loss表示总体损失,由上述三项损失函数加权求和所得,其中n1、n2和n3表示超参数。
32、作为本发明的进一步改进,步骤s4.2中更新策略为:根据三分支预测头输出的置信度得分,将目标跟踪状态分为稳态、暂稳态和非稳态,稳态定义为m个连续帧的置信度评分大于0.9的状态,一旦达到稳定状态,将当前目标模板更新取代初始目标模板;如果置信度分数在0.7~0.9之间,则认为跟踪器处于暂稳态,目标模板在此时间段内保持不变;如果置信度小于0.7且累计达到n次,则跟踪器处于非稳态,当前目标模板重置为第一帧的初始目标模板。
33、本发明在多模态特征挖掘、融合和模板更新方面入手进行改进,从而提升rgbt跟踪性能。本发明的有益效果是:提供了一种高性能的rgbt目标跟踪技术,相比现有技术具有如下优势。
34、(1)本发明构建的目标跟踪模型中设计的模态感知模块,结合通道特征的聚合和分发机制以及空间特征的相似性计算机制,充分挖掘多模态判别特征。
35、(2)本发明构建的目标跟踪模型中的transformer融合模块,用于融合模板与搜索区域的特征,采用混合注意力有效捕获全局依赖关系以学习模态感知表示。
36、(3)本发明构建的目标跟踪模型采用相互约束损失函数,对应设计了三分支预测头,提高了定位精度。
37、(4)本发明的目标跟踪模型提出了基于状态感知模板更新策略以提高跟踪性能。
1.一种基于模态感知特征学习的rgbt目标跟踪方法,其特征是构建目标跟踪模型用于rgbt目标跟踪任务,包括以下步骤:
2.根据权利要求1所述的基于模态感知特征学习的rgbt目标跟踪方法,其特征是步骤s2.3中,用通道聚合与分发机制实现通道特征增强,具体如下:
3.根据权利要求1所述的基于模态感知特征学习的rgbt目标跟踪方法,其特征是步骤s2.3中,空间特征相似度感知采用空间相似度计算机制,通过相似性学习来产生感知实例的残差,具体如下:
4.根据权利要求1所述的基于模态感知特征学习的rgbt目标跟踪方法,其特征是步骤s2.6中,通过约束损失实现三分支相互关联,具体如下:
5.根据权利要求1所述的基于模态感知特征学习的rgbt目标跟踪方法,其特征是步骤s4.2中更新策略为:根据三分支预测头输出的置信度得分,将目标跟踪状态分为稳态、暂稳态和非稳态,稳态定义为m个连续帧的置信度评分大于0.9的状态,一旦达到稳定状态,将当前目标模板更新取代初始目标模板;如果置信度分数在0.7~0.9之间,则认为跟踪器处于暂稳态,目标模板在此时间段内保持不变;如果置信度小于0.7且累计达到n次,则跟踪器处于非稳态,当前目标模板重置为第一帧的初始目标模板。