一种基于多特征博弈的视觉目标跟踪方法

专利查询2024-4-22 159

1.本公开属于数字图像处理、机器学习技术领域，特别涉及一种基于多特征博弈的视觉目标跟踪方法。

背景技术：

2.视觉目标跟踪是计算机视觉领域研究的热点问题和难点问题，具有重要的理论研究意义和广阔的应用前景。其主要任务是仅通过一段视频中给定的任意目标在初始帧的状态，连续地估计目标在后续帧的状态和轨迹。
3.目标跟踪技术主要应用于对视频或连续有语义关联的图像中任意目标的空间位置、形状和尺寸的获知。作为检测算法的补充，其可以在视频或连续有语义关联的图像中提供目标的空间位置，降低整个系统的复杂度。因此，该技术在实际生活中具有广泛的应用场景：(1)智能监控系统。由于视频图像监控具有很强的直观性、实时性和可逆性，使得它在解决经营纠纷、预防和制止犯罪、处理治安和刑事案件、为公安机关侦查破案提供线索等方面有着无可替代的作用。(2)虚拟现实。虚拟环境中的3d交互和虚拟角色动作模拟直接得益于视频人体运动分析的研究成果，可给参与者更加丰富的交互形式，人体跟踪分析是其关键技术。(3)医学诊断。跟踪技术在超声波和核磁序列图像的自动分析中有广泛应用，由于超声波图像中的噪声经常会淹没单帧图像有用信息，使静态分析十分困难，而通过跟踪技术利用序列图像中目标在几何上的连续性和时间上的相关性，可以得到更准确的结果。
4.目前，主流的目标跟踪算法可分为基于相关滤波的目标跟踪和基于深度学习的目标跟踪算法。基于判别式相关滤波(dcf)的目标跟踪算法将目标跟踪问题的求解视为一个分类问题，采用岭回归方法学习一个相关滤波器，将学习到的滤波器与图像中的搜索区域进行相关运算来区分目标的前景和背景。dcf算法将跟踪问题转化为对一个岭回归问题的求解，通过循环移位生成的大量训练样本用于学习判别式滤波器，用于模板匹配和位置推理。由于所有计算都被转换到频域由离散傅里叶变换进行加速，因此此类方法在取得较好跟踪性能的同时还能保持较高的运行速度。基于深度学习的目标跟踪算法通常采用具有两条支路的孪生网络结构，其中一条支路保存目标模板特征，另一条支路包含搜索区域特征，两分支通过匹配来预测目标位置。
5.无论是采用何种跟踪算法，特征表达始终是制约跟踪性能的关键因素。常见的图像特征主要分为手工特征和深度特征。以灰度特征、方向梯度直方图(hog)特征、颜色命名(cn)特征等为代表的手工特征在过去几年被广泛用于构建目标外观模型。近年来，随着深度学习的发展，卷积神经网络(cnn)在计算机视觉领域的多个任务取得巨大成功，越来越多的跟踪算法开始采用cnn预训练模型提取深度特征对目标外观进行建模，以实现对目标的鲁棒表示。尽管深度特征已被证明比传统的手工特征更具判别力和鲁棒性，但手工特征以其低维度和高分辨率等优势仍然是很多跟踪算法不可或缺的一部分。因此，如何让跟踪器能够根据不同的跟踪场景自适应地选择当前最佳的特征或特征组合进行跟踪以及如何实现不同特征之间的自适应融合仍然是目前亟待解决的问题。
6.模型更新策略也是影响跟踪算法性能的重要方面。为了使跟踪算法能够适应跟踪过程中目标和跟踪场景的不断变化，传统的跟踪算法在完成每帧的目标定位后，通常会通过线性插值的方式更新滤波器模型。这样，滤波器模型不仅从当前帧学习到目标的最新变化，还将模型的历史信息作为参考，因此具有一定的“记忆”功能。然而，这种更新策略似乎只能适应目标的缓慢变化，当目标受到遮挡或跟踪场景发生剧烈变化时仍然保持更新则会使模型受到污染，最终失去对目标的判别能力。最近，基于跟踪置信度的自适应模型更新策略被广泛采用，该策略利用响应图评估指标对跟踪置信度进行衡量，并在置信度较低时停止模型更新。然而，这些评估指标过度依赖于响应图，而响应图并不一定在任何时候都能正确反映跟踪置信度。如何对跟踪置信度进行有效评估仍然是一项极具挑战性的任务。
7.现有大多数跟踪算法仍采用较为单一的手工特征或深度特征进行特征提取。该技术的缺点是特征多样性不足、鲁棒性较差、跟踪精度低。不同视觉特征都有其各自的特点：hog特征主要刻画目标的边缘轮廓信息，对目标的形状变化极为敏感，当目标发生较大形变时，该特征几乎失效，因此仅采用hog特征的跟踪算法容易在复杂的跟踪场景下发生漂移；cn特征主要对目标的颜色信息进行建模，当跟踪场景发生较为剧烈的光照变化时，仅采用cn特征的跟踪算法也容易跟踪失败。不同于hog特征和cn特征等关注低级细节的手工特征，深度特征捕捉目标的高级语义信息，但定位精度不高，在遇到相似目标干扰时容易发生漂移。因此，采用单一的特征仅能在理想的场景下保持跟踪，而无法有效应对复杂多变的实际跟踪场景。
8.对于现有大多数采用多特征融合的目标跟踪算法，其特征融合方式通常可分为两种：特征级融合和决策级融合。特征级融合就是将提取到的多种特征进行简单的拼接组合，拼接后的特征的维度为各特征的维度之和，将拼接后的特征作为一个整体进行决策，即最后只产生一个决策结果。决策级融合则将每种特征视为一个决策个体，每种特征均产生各自的决策结果，最终的决策结果是各特征所对应决策结果的加权之和。大多数跟踪算法使用人工设定的固定融合权重进行加权，算法无法为适应不同跟踪场景而自适应调整融合权重，灵活性较差，不能满足所有场景的需求。
9.传统的模型更新策略是在完成每帧的目标定位和尺度估计后对滤波器模型进行更新。为了缓解过拟合和模型退化问题，现有大多数算法通常采用基于固定间隔的稀疏模型更新策略和基于跟踪置信度的自适应模型更新策略。前者通过人为设置固定的更新间隔(例如每隔5帧更新一次)来缓解模型过拟合，后者则根据响应图的峰值强度、相似程度以及震荡程度等方面来衡量当前的跟踪置信度。
10.传统的模型更新策略缺乏对跟踪场景的感知，容易使跟踪器在复杂场景下发生漂移。基于固定间隔的稀疏模型更新策略虽然可以在一定程度上缓解过拟合问题，但更新间隔带来的不确定性仍然无法使算法避免在复杂场景下更新。基于跟踪置信度的自适应模型更新策略大都依赖于响应图，但该方法可能会造成置信度的误判，容易使模型错过在关键帧的更新，导致其判别力不高。

技术实现要素：

11.鉴于此，本公开提供了一种基于多特征博弈的视觉目标跟踪方法，包括如下步骤：
12.s100：初始化跟踪器并读取视频序列的初始帧图像；
13.s200：对初始帧图像的搜索区域进行基础特征提取，得到该搜索区域的31维hog特征向量10维cn特征向量和512维深度特征向量
14.s300：将所述搜索区域图像的1维灰度特征与所述31维hog特征向量拼接成32维的特征向量，然后将其等分成两个16维的新的特征向量，分别记为16维特征向量和16维特征向量并将前述cn特征向量记为将x1、x2和x
deep
进行拼接得到544维的新的特征向量将x1、x3和x
deep
进行拼接得到538维的新的特征向量将x2、x3和x
deep
进行拼接得到538维的新的特征向量将x1、x2、x3和x
deep
进行拼接得到554维的新的特征向量
15.s400：根据目标方程对滤波器进行初始化；
16.s500：对下一帧图像的搜索区域进行基础特征提取，得到该搜索区域的31维的hog特征向量x
′
hog
，10维的cn特征向量x
′
cn
和512维的深度特征向量x
′
deep
；
17.s600：将步骤s500中得到的三种基础特征向量按照步骤s300的方式进行构建后得到七种新的特征向量x＝[x
′1，x
′2，...，x
′7]；
[0018]
s700：通过分别计算各特征向量对应的响应图来初步获取各自的预测位置；
[0019]
s800：根据每个特征向量的预测位置计算各自的鲁棒性分数，筛选出博弈候选者；
[0020]
s900：确定特征博弈方式；
[0021]
s1000：对筛选出的博弈候选者进行多特征博弈；
[0022]
s1100：根据博弈融合得到的响应图的峰值确定最终预测结果的中心位置以实现对视觉目标的定位；
[0023]
s1200：完成对视觉目标的定位后，根据特征图评估指标对所述滤波器模型进行更新；
[0024]
s1300：输入下一帧图像，循环步骤s500至s1200，直到完成对所有帧图像中目标的跟踪。
[0025]
通过上述技术方案，本方法采用多种视觉特征以实现对目标进行更加全面的表示。将多种特征在特征级进行多次融合，构建出多个融合特征来进一步提高特征的多样性和鲁棒性。利用博弈论的思想，将多种融合特征在决策级通过不断博弈达到最佳融合效果，从而实现特征的自适应融合，以达到最终提高目标跟踪的精度和鲁棒性的目的。通过评估特征图的质量来反映当前的跟踪置信度，并根据所得到的置信度分数进行自适应模型更新。
[0026]
本方法带来的有益效果为：第一、构建了7种新的特征，这在一定程度上增强了特征的多样性和鲁棒性。第二、对所有特征进行鲁棒性评估，去除掉可靠性较低的特征的干扰。第三、通过博弈迭代的方式可以使各特征根据当前决策结果自适应地调整融合权重，以
达到最佳的融合效果，从而完成更加准确可靠的目标定位。第四、自适应模型更新机制能够有效缓解模型的过拟合和退化问题。
附图说明
[0027]
图1是本公开一个实施例中所提供的一种基于多特征博弈的视觉目标跟踪方法流程图；
[0028]
图2是本公开一个实施例中特征评估示意图；
[0029]
图3是本公开一个实施例中分级博弈示意图。
具体实施方式
[0030]
面将参照附图1至图3详细地描述本公开的具体实施例。参见图1，在一个实施例中，其公开了一种基于多特征博弈的视觉目标跟踪方法，包括如下步骤：
[0031]
s100：初始化跟踪器并读取视频序列的初始帧图像；
[0032]
s200：对初始帧图像的搜索区域进行基础特征提取，得到该搜索区域的31维hog特征向量10维cn特征向量和512维深度特征向量
[0033]
s300：将所述搜索区域图像的1维灰度特征与所述31维hog特征向量拼接成32维的特征向量，然后将其等分成两个16维的新的特征向量，分别记为16维特征向量和16维特征向量并将前述cn特征向量记为将x1、x2和x
deep
进行拼接得到544维的新的特征向量将x1、x3和x
deep
进行拼接得到538维的新的特征向量将x2、x3和x
deep
进行拼接得到538维的新的特征向量将x1、x2、x3和x
deep
进行拼接得到554维的新的特征向量
[0034]
s400：根据目标方程对滤波器进行初始化；
[0035]
s500：对下一帧图像的搜索区域进行基础特征提取，得到该搜索区域的31维的hog特征向量x
hog
，10维的cn特征向量x
′
cn
和512维的深度特征向量x
′
deep
；
[0036]
s600：将步骤s500中得到的三种基础特征向量按照步骤s300的方式进行构建后得到七种新的特征向量x＝[x
′1，x
′2，...，x
′7]；
[0037]
s700：通过分别计算各特征向量对应的响应图来初步获取各自的预测位置；
[0038]
s800：根据每个特征向量的预测位置计算各自的鲁棒性分数，筛选出博弈候选者；
[0039]
s900：确定特征博弈方式；
[0040]
s1000：对筛选出的博弈候选者进行多特征博弈；
[0041]
s1100：根据博弈融合得到的响应图的峰值确定最终预测结果的中心位置以实现对视觉目标的定位；
[0042]
s1200：完成对视觉目标的定位后，根据特征图评估指标对所述滤波器模型进行更新；
[0043]
s1300：输入下一帧图像，循环步骤s500至s1200，直到完成对所有帧图像中目标的跟踪。
[0044]
在这个实施例中，本方法在传统的相关滤波算法框架基础上，引入了hog特征和cn特征两种具有代表性的手工特征以及近年来流行的由卷积神经网络(cnn)预训练模型提取的深度特征用于特征表示，同时在特征级和决策级实现信息的有效融合。此外，提供一种可靠的自适应模型更新策略用于缓解模型的过拟合和退化问题，并提高跟踪速度。
[0045]
本方法以hog、cn和深度特征为基础特征通过不同方式构建了7种新的鲁棒视觉特征。通过特征的相互评估和自我评估策略获得特征的鲁棒性分数。利用博弈论的思想实现多特征在决策级的自适应融合，提供直接博弈和分级博弈两种博弈方式，根据博弈参与者的数量自动选择博弈方式。提出特征图评价指标用于衡量跟踪置信度，根据置信度进行自适应模型更新。
[0046]
hog特征是一种用于表征目标局部梯度信息的特征描述子。作为计算机视觉和图像处理领域常见的特征描述子，hog特征已被广泛应用于图像识别中，尤其在行人检测上取得了巨大成功。它将图像分成若干个cell，通过计算每个cell中像素点的梯度构成梯度直方图，串联所有直方图即可构成hog描述子。由于像素的梯度包含大小和方向，因此能够很好地捕捉目标的轮廓信息，且能够保持良好的光学不变性。
[0047]
cn特征是一种基于潜在语义模型的颜色空间。它将rgb空间的3通道映射到具有11通道的cn空间，以对目标的颜色信息进行详细描述。这些通道具有最常见的颜色标签，包括黑，蓝，棕，灰，绿，橘，粉，紫，红，白，黄。由于含有丰富的颜色信息，因此对非刚性物体的形变和尺度不敏感，但容易受到光照变化和相似物体的干扰。
[0048]
深度特征是由具有多层结构的卷积神经网络通过卷积、池化等操作得到的图像抽象表示。其中，浅层特征主要关注目标的轮廓和空间位置信息，具有较高的定位精度；深层特征主要包含目标的高级语义信息，具有较强的判别能力和鲁棒性。与手工特征相比，深度特征在带来跟踪性能提升的同时会不可避免地牺牲跟踪速度，降低算法的实用性。
[0049]
因此，本方法除了引入上述特征外，还将它们以不同方式进行组合，最终构建出7种不同的特征，以达到增强特征多样性和鲁棒性的目的。具体来说，对于hog特征，将1维的灰度特征与31维的hog特征拼接成32维的特征向量，然后将其等分成两个16维的新的特征，分别称为hog1和hog2。由于cn特征本身维度较小，因此不做拆分。考虑到提取多层深度特征需要较大的时间开销，仅使用vgg-16中的单层(conv5-2)激活值作为深度特征，称为deep。7种特征的构成方式如表1所示。
[0050][0051]
表1
[0052]
所述中心位置用来确定当前帧图像中目标的中心位置，即算法在当前帧的预测结果。步骤s500中“下一帧搜索区域”就是以前一帧的中心位置为中心的。
[0053]
在另一个实施例中，所述步骤s100还进一步包括如下步骤：
[0054]
s101：对于初始帧的输入图像，通过给定经过标注的目标的边界框确定初始帧图像的搜索区域；
[0055]
s102：根据预先设定的相应尺寸构建余弦窗；
[0056]
s103：通过高斯函数构建用于训练样本的期望标签函数。
[0057]
就该实施例而言，对于初始帧的输入图像，通过给定经过标注的目标的边界框，以2倍于该边界框大小的区域作为搜索区域，用于后续的特征提取。此外，根据预先设定的相应尺寸构建余弦窗以缓解相关滤波类算法的边界效应。最后通过高斯函数构建用于训练样本的期望标签y。
[0058]
在另一个实施例中，所述步骤s200还进一步包括如下步骤：
[0059]
采用在大规模数据集imagenet上经过预先训练的卷积神经网络vgg16模型作为特征提取网络，将初始帧图像的搜索区域图像输入该特征提取网络，选取其中conv5-2的输出作为深度特征。
[0060]
就该实施例而言，对初始帧图像的搜索区域进行基础特征提取。对于手工特征，分别提取搜索区域的hog特征、cn特征。对于深度特征，采用在大规模数据集imagenet上经过预先训练的卷积神经网络vgg-16模型作为特征提取网络，将候选图像输入该网络，选取其中conv5-2的输出作为深度特征。
[0061]
在另一个实施例中，所述步骤s400还进一步包括如下步骤：
[0062]
s401：定义目标函数；
[0063]
s402：将该目标函数转换到傅里叶域进行快速求解，得到滤波器的闭合解。
[0064]
就该实施例而言，根据目标函数学习初始滤波器。目标函数可表示为：
其中，x为特征，f为滤波器，y为期望标签函数，λ为正则化参数，表示相关运算。对于该目标函数，将其转换到傅里叶域进行快速求解，即：其中表示傅里叶变换，
⊙
表示点乘运算。令该式梯度为零可得滤波器的闭合解：f＝(x
t
x+λi)-1
x
t
y。其中，i表示的是单位矩阵。因此，对于特征向量x，其对应的滤波器的解为其中，x右上角的*表示复共轭操作。
[0065]
在另一个实施例中，所述步骤s700还进一步包括如下步骤：
[0066]
s701：对于特征向量x及其对应的滤波器，计算该特征的响应图；
[0067]
s702：选取响应图上最大值所在的位置作为该特征所预测目标的中心位置。
[0068]
就该实施例而言，通过计算响应图进行目标定位。对于特征x及其对应的滤波器f，该特征的响应图通过公式来计算得到，其中表示傅里叶逆变换。响应图上最大值所在的位置即为该特征所预测目标的中心位置。因此，对于本方案中的七种特征x＝[x
′1，x
′2，...，x
′7]，可以得到各特征的响应图r＝[r
′1，r
′2，..，r
′7]以及预测的中心位置p＝[p
′1，p
′2，...，p
′7]。
[0069]
在另一个实施例中，所述步骤s800还进一步包括如下步骤：
[0070]
根据多特征相互评估和自我评估策略计算每个特征的鲁棒性分数，统计其中高于所有特征的鲁棒性分数均值的特征数量n，并将它们作为博弈候选者。
[0071]
就该实施例而言，多特征评估。根据多特征相互评估和自我评估策略计算每个特征的鲁棒性分数s＝[s
′1，s
′2，...，s
′7]，统计其中高于所有特征的鲁棒性分数均值的特征数量，记为n(n＜7)，并将它们作为博弈候选者。
[0072]
为了获得更加可靠的跟踪结果，需要有一种合适的策略对上述7种特征进行评估。在本方法中，采用多个特征之间的相互评估和单个特征的自我评估两种策略来衡量各个特征的鲁棒性分数，如图2所示。
[0073]
对于多个特征之间的相互评估，首先计算不同特征预测框之间的重叠率：
[0074][0075]
其中表示第t帧中特征eu和ev的重叠率。对(1)式使用非线性高斯函数减小波动：
[0076][0077]
由此可以计算出7个特征重叠率的均值其中特征数量e＝7。两特征之间重叠率在短时间δt内的波动程度在一定程度反映了该特征与其他特征重叠率的稳定性，可通过下式计算：
[0078][0079]
为保持时间稳定性，给最近分数分配较高的权重，使用一个递增的权重序列w＝{g0，g1，g2，...，g
δt-1
}，(g＞1)将其引入均值和标准差后分别得到和其中w
τ
是序列中第(τ-t+δt)个元素。最终，eu的相互评估得分为：
[0080][0081]
其中ε是防止分母为0的常数，越高表示eu与其他特征一致性越好，稳定性越高。
[0082]
单个特征的自我评估用于衡量同一特征在连续两帧所预测中心位置的平滑程度。第t帧与第t-1帧边界框的欧氏距离为代表边界框的中心位置。eu的自我评估得分可表示为：
[0083][0084]
特征的最终鲁棒性分数定义为相互评估部分和自我评估部分分数的线性组合：
[0085][0086]
其中γ为权重因子。根据上式可以得到每个特征对应的鲁棒性分数。为了提高跟踪结果的可靠性，计算所有特征的鲁棒性分数的平均值，记鲁棒性分数高于平均值的特征数量为n，将这n个特征作为后续的特征博弈的候选者。
[0087]
在另一个实施例中，所述步骤s900还进一步包括如下步骤：
[0088]
根据特征数量n确定特征博弈方式。
[0089]
就该实施例而言，根据特征数量n确定特征博弈方式。当n＝1时，跳过步骤s1000，该特征对应的预测结果即为算法的最终预测结果。当n＝2时，将二者的响应图输入到步骤s1000，两特征进行直接博弈，博弈结果即为算法最终预测结果。当n＞2时，各特征进行分级博弈，依次输入每对特征的响应图到步骤s1000，直到所有特征均完成博弈融合，算法预测结果为所有特征的通过博弈融合的结果。
[0090]
博弈论是一种研究两个及两个以上具有竞争性质的个体之间优化策略的数学理论，已经被广泛应用于经济学、计算机科学和军事战略等重要领域。博弈的最终目的是找到
一种使得各参与者自身利益最大化的策略组合，此时，各参与者之间达到一种相对稳定状态，这种相对稳定状态称为博弈均衡。博弈论中的均衡主要包括纳什均衡、子博弈精炼纳什均衡、贝叶斯纳什均衡和精炼贝叶斯均衡。其中纳什均衡是应用最广泛的一种博弈均衡类型，著名的囚徒困境模型就是纳什均衡中的一个经典案例。其基本思想是在其他参与者不改变策略时，每个参与者做出的决策对自身的结果是最好的。但是，纳什均衡中的每个参与者只关注优化自身利益，而忽略了整体利益。因此，纳什均衡的结果通常是局部最优而不是全局最优。在纳什均衡的基础上，marco和morgan提出轻微利他均衡。在轻微利他均衡中，参与者在关心自身利益的同时，会适当考虑其他参与者的利益，将对手的利益赋予权重ω作为自身利益的一部分。尽管这个权重ω是轻微的(0＜ω＜1)，这仍然能够促进各参与者合作共赢，从而对全局利益产生一定的积极影响。
[0091]
记博弈过程中参与者集合p＝{1，2}，x1为特征1，x2代表特征2，r1和r2分别代表二者对应的响应图。各参与者收益函数定义如下：
[0092][0093]
其中g1和g2分别为二者的收益函数。为使参与者在博弈过程中实现信息融合与交互，根据轻微利他均衡，在(7)式的基础上进一步扩展得到新的收益函数：
[0094][0095]
其中ω1和ω2代表两种特征所对应响应图的融合权重。响应图融合权重是通过对响应图质量进行评估得到的。一般来说，响应图震荡越小且最高峰的峰值越大，响应图质量越高。本方法采用峰值旁瓣比(peak to sidelobe ratio，psr)指标来评估响应图。psr的计算公式为：
[0096][0097]
对于输入的响应图r，max(r)为响应图的峰值，mean(r)计算响应图的均值，σ(r)计算响应图的标准差。因此对于响应图权重ω1和ω2可通过如下方式计算得到：
[0098][0099]
我们构建了7种不同的视觉特征并通过计算各特征的鲁棒性分数选择出n个鲁棒性较高的特征。对于n＝1的情况，直接采用该特征的预测结果作为算法的输出。当n＝2时，以不同方式融合它们将会产生不同的跟踪结果。考虑到这些特征在不同跟踪场景中具有竞争关系，本方法将不同特征的决策结果在融合前按照上述博弈过程实现进一步提升，从而使它们以最佳的融合方式进行融合。特别地，当n大于2时，本方案采用图3所示的分级博弈策略来融合它们。
[0100]
在另一个实施例中，所述步骤s1000还进一步包括如下步骤：
[0101]
s1001：初始博弈次数为0，计算响应图r1和r2的峰值旁瓣比psr(r1)和psr(r2)；
[0102]
s1002：通过和得到两特征的权重；
[0103]
s1003：通过公式得到融合后的特征响应g1和g2；
[0104]
s1004：博弈次数加一，且p1＝max(g1)，p2＝max(g2)；
[0105]
s1005：比较p1和p2的距离与阈值θ的大小，如果或博弈次数大于3，博弈结束，最终响应r(x)＝r(x1)+r(x2)，进入步骤s1100；否则取p0＝(p1+p2)/2，返回步骤s500进行博弈迭代。
[0106]
就该实施例而言，博弈候选者是通过计算来自动确定的(步骤s800)，由于不同帧得到候选者可能会不同，无法显式地规定具体是哪两个特征。但是，每次博弈的参与者只能为两个。因此，为了便于表示，采用x1和x2代表本次博弈的两个参与者，r1和r2则为二者对应的响应图。x1和x2代表本次博弈的两个参与者，也就是s600中的某两个或多个特征。p1表示响应图g1的最大值所在的位置，即通过特征x1预测的目标的中心位置。p2表示响应图g2的最大值所在的位置，即通过特征x2预测的目标的中心位置。p0为目标的初始中心位置。
[0107]
在另一个实施例中，所述步骤s1200还进一步包括如下步骤：
[0108]
s1201：获取步骤s500中提取的所有特征的通道；
[0109]
s1202：计算所有特征通道的bfaer值；
[0110]
s1203：根据所得到的bfaer值确定是否更新滤波器模型。
[0111]
就该实施例而言，在给出自适应模型更新机制之前，本方法首先提出特征图评估指标，即背景-前景能量均值比(bfaer)。该指标利用先验信息计算特征图中目标区域与背景区域的能量均值之比，从而在一定程度上反映了该通道对目标的关注程度：
[0112][0113]
其中和分别表示前景和背景区域的平均特征值。当前景区域相对于背景区域的平均能量值越高，所计算出的bfaer值越高。假定以某个阈值作为衡量通道有效性的标准，那么在简单跟踪场景下，大于该阈值的特征通道的数量整体保持稳定。而当目标受到严重遮挡或其他复杂因素的影响时，意味着当前的跟踪置信度较低，由于所选的通道与目标具有高度相关性和敏感性，其对应的有效通道数开始骤降直到低于当前历史均值的一定比例。
[0114]
受到以上观察的启发，本方法提供一种新颖的自适应模型更新机制。首先，对每一帧提前得到的特征，通过公式(11)计算所有特征通道的bfaer值，设置通道阈值ξ，将bfaer值大于ξ的通道视为有效通道并统计有效通道的个数这里我们将n
eff
作为跟踪置信度的评估依据，这是由于当目标发生剧烈变化或受到遮挡等干扰时，即使是那些有效通道也无法很好的表征目标信息，在这种情况下，n
eff
将会急剧下降，这与跟踪置信度的变化趋势恰好一致。我们的自适应模型更新策略可表示如下：
[0115][0116]
其中β为比例因子，表示前k帧中有效通道个数的平均值，即：
[0117][0118]
步骤s500中的每个特征都由很多个特征通道组成。举例来说，hog特征是31维的，每一维就是一个特征通道，也就是说hog特征包含31个特征通道。根据通道号直接就能从特征中得到相应的特征通道。本方法对所有通道计算bfaer值，因此直接循环遍历所有通道并对每个通道进行计算。
[0119]
在另一个实施例中，所述步骤s1203还进一步包括如下步骤：
[0120]
统计bfaer值大于给定阈值ξ的通道个数n
eff
，当通道个数n
eff
小于等于其历史均值的β倍时，停止更新滤波器模型；否则根据f
t
＝μf+(1-μ)f
t-1
更新滤波器模型，其中，β表示的是比例因子，0＜β＜1，f表示当前帧得到的滤波器，μ表示学习率，0＜μ＜1，f
t-1
表示前一帧的滤波器。
[0121]
尽管以上结合附图对本发明的实施方案进行了描述，但本发明并不局限于上述的具体实施方案和应用领域，上述的具体实施方案仅仅是示意性的、指导性的，而不是限制性的。本领域的普通技术人员在本说明书的启示下和在不脱离本发明权利要求所保护的范围的情况下，还可以做出很多种的形式，这些均属于本发明保护之列。

技术特征：
1.一种基于多特征博弈的视觉目标跟踪方法，包括如下步骤：s100：初始化跟踪器并读取视频序列的初始帧图像；s200：对初始帧图像的搜索区域进行基础特征提取，得到该搜索区域的31维hog特征向量10维cn特征向量和512维深度特征向量s300：将所述搜索区域图像的1维灰度特征与所述31维hog特征向量拼接成32维的特征向量，然后将其等分成两个16维的新的特征向量，分别记为16维特征向量和16维特征向量并将前述cn特征向量记为将x1、x2和x
deep
进行拼接得到544维的新的特征向量将x1、x3和x
deep
进行拼接得到538维的新的特征向量将x2、x3和x
deep
进行拼接得到538维的新的特征向量将x1、x2、x3和x
deep
进行拼接得到554维的新的特征向量s400：根据目标方程对滤波器进行初始化；s500：对下一帧图像的搜索区域进行基础特征提取，得到该搜索区域的31维的hog特征向量x
′
hog
，10维的cn特征向量x
′
cn
和512维的深度特征向量x
′
deep
；s600：将步骤s500中得到的三种基础特征向量按照步骤s300的方式进行构建后得到七种新的特征向量x＝[x
′1，x
′2，...，x
′7]；s700：通过分别计算各特征向量对应的响应图来初步获取各自的预测位置；s800：根据每个特征向量的预测位置计算各自的鲁棒性分数，筛选出博弈候选者；s900：确定特征博弈方式；s1000：对筛选出的博弈候选者进行多特征博弈；s1100：根据博弈融合得到的响应图的峰值确定最终预测结果的中心位置以实现对视觉目标的定位；s1200：完成对视觉目标的定位后，根据特征图评估指标对所述滤波器模型进行更新；s1300：输入下一帧图像，循环步骤s500至s1200，直到完成对所有帧图像中目标的跟踪。2.根据所述权利要求1的方法，所述步骤s100还进一步包括如下步骤，优选的：s101：对于初始帧的输入图像，通过给定经过标注的目标的边界框确定初始帧图像的搜索区域；s102：根据预先设定的相应尺寸构建余弦窗；s103：通过高斯函数构建用于训练样本的期望标签函数。3.根据所述权利要求1的方法，所述步骤s200还进一步包括如下步骤：采用在大规模数据集imagenet上经过预先训练的卷积神经网络vgg-16模型作为特征提取网络，将初始帧图像的搜索区域图像输入该特征提取网络，选取其中conv5-2的输出作为深度特征。4.根据所述权利要求1的方法，所述步骤s400还进一步包括如下步骤：
s401：定义目标函数；s402：将该目标函数转换到傅里叶域进行快速求解，得到滤波器的闭合解。5.根据所述权利要求1的方法，所述步骤s700还进一步包括如下步骤：s701：对于特征向量x及其对应的滤波器，计算该特征的响应图；s702：选取响应图上最大值所在的位置作为该特征所预测目标的中心位置。6.根据所述权利要求1的方法，所述步骤s800还进一步包括如下步骤：根据多特征相互评估和自我评估策略计算每个特征的鲁棒性分数，统计其中高于所有特征的鲁棒性分数均值的特征数量n，并将它们作为博弈候选者。7.根据所述权利要求6的方法，所述步骤s900还进一步包括如下步骤：根据特征数量n确定特征博弈方式。8.根据所述权利要求1的方法，所述步骤s1000还进一步包括如下步骤：s1001：初始博弈次数为0，计算响应图r1和r2的峰值旁瓣比psr(r1)和psr(r2)；s1002：通过和得到两特征的权重；s1003：通过公式得到融合后的响应图g1和g2；s1004：博弈次数加一，且p1＝max(g1)，p2＝max(g2)；s1005：比较p1和p2的距离与阈值θ的大小，如果或博弈次数大于3，博弈结束，最终响应r(x)＝r(x1)+r(x2)，进入步骤s1100；否则取p0＝(p1+p2)/2，返回步骤s500进行博弈迭代。9.根据所述权利要求1的方法，所述步骤s1200还进一步包括如下步骤：s1201：获取步骤s500中提取的所有特征的通道；s1202：计算所有特征通道的bfaer值；s1203：根据所得到的bfaer值确定是否更新滤波器模型。10.根据所述权利要求9的方法，所述步骤s1203还进一步包括如下步骤：统计bfaer值大于给定阈值ξ的通道个数n
eff
，当通道个数n
eff
小于等于其历史均值的β倍时，停止更新滤波器模型；否则根据f
t
＝μf+(1-μ)f
t-1
更新滤波器模型，其中，β表示的是比例因子，0＜β＜1，f表示当前帧得到的滤波器，μ表示学习率，0＜μ＜1，f
t-1
表示前一帧的滤波器。

技术总结
一种基于多特征博弈的视觉目标跟踪方法，主要通过初始化跟踪器并读取视频序列的初始帧图像，和对初始帧图像的搜索区域进行基础特征提取，以及在此基础上实现多特征构建；同时对筛选出的博弈候选者进行多特征博弈以预测中心位置并对滤波器模型进行更新，直到完成对所有帧图像中目标的跟踪。本方法采用多种视觉特征以实现对目标进行更加全面的表示，利用博弈论的思想，将多种融合特征在决策级通过不断博弈达到最佳融合效果，从而实现特征的自适应融合，以达到最终提高目标跟踪的精度和鲁棒性的目的，并通过评估特征图的质量来反映当前的跟踪置信度，并根据所得到的置信度分数进行自适应模型更新。适应模型更新。适应模型更新。

技术研发人员：马素刚张磊侯志强杨小宝赵致闲张子贤王忠民
受保护的技术使用者：西安邮电大学
技术研发日：2021.11.29
技术公布日：2022/3/8

专利

最新回复(0)