一种基于不确定性建模的高鲁棒视觉无线动态融合方法

专利查询2天前  6


本发明涉及动作识别及多模态融合,具体而言,涉及一种基于不确定性建模的高鲁棒视觉无线动态融合方法。


背景技术:

1、目前视觉无线模态融合技术主要利用两个模态的互补特性来提高识别性能。视觉模态具有较高空间分辨率,雷达模态对环境的鲁棒性较高,因此可以利用两种模态各自的优势提升整体判别能力。目前在视觉和无线多模态融合的动作识别领域中,大多都是依靠两者模态之间的互补性来实现更加高效的判别。所述的互补性指的是,视觉能够有效识别平面动作,例如挥手,画x等,但是对径向动作不敏感,例如向前推,敲门等动作。而雷达则刚好相反,对径向动作更加敏感,对水平动作反而不敏感。利用这种互补性,可以有效的提升整体动作识别的准确率,但是忽略了当单一模态失效时,模态融合中传递的不是互补信息,而是噪声。现有方法无法解决噪声带来的干扰问题,从而导致模态融合的效果大打折扣。

2、综上所述,在两种模态融合过程中,存在单一模态失效的情况下(如视觉受到光照影响),模态融合效果会受到缺失模态的噪声干扰,导致整体性能显著下降。


技术实现思路

1、针对多模态融合中,有效互补和模态缺失情况下导致性能下降等问题,本发明提供一种基于不确定性建模的高鲁棒视觉无线动态融合方法。本发明主要利用模态间的互补性以及模态特征的不确定性来实现有效的模态互补以及动态的模态融合,不仅能够提高动作识别的准确率,而且能有效提高单一模态缺失情况下识别的准确率。

2、本发明采用的技术手段如下:

3、一种基于不确定性建模的高鲁棒视觉无线动态融合方法,包括以下步骤:

4、s1、获取目标人体动作视频帧序列,利用openpose算法将目标人体动作视频序列处理成骨架关节点数据;通过雷达采集获取目标人体动作的雷达数据,所述雷达数据为立方体矩阵形式,矩阵包括快时间维,慢时间维和天线数;

5、s2、对所述骨架关节点数据进行处理,生成成骨架序列数据;对雷达数据进行信号处理,提取人体动作的微多普勒信息,生成时间-速度的微多普勒图;

6、s3、对所述骨架序列进行特征提取获得视觉模态特征;对所述微多普勒图进行特征提取获得雷达模态特征;

7、s4、对所述视觉模态特征和所述雷达模态特征进行模态间特征交互,从而利用不确定性实现模态内特征选择以及模态间特征融合,其中,对所述视觉模态特征和所述雷达模态特征进行模态间特征交互包括:

8、提取视觉模态特征和雷达模态特征经过网络层的中间层特征,将中间层特征沿着通道维度进行全局和平均池化,视觉模态特征的中间层特征经过全局和平均池化获得两个通道特征向量,视觉模态特征的中间层特征经过全局和平均池化也获得两个通道特征向量,将四个通道特征向量进行拼接,并经过mlp层得到两组交互权重向量,分别与视觉模态和雷达模态的中间层特征相乘并加上原分支的模态特征送入到下一层网络中,其中原分支的模态特征指的是未经过全局和平均池化的中间层特征,最终得到两模态分支各自的交互特征。

9、进一步地,利用不确定性实现模态内特征选择以及模态间特征融合,包括:

10、使用狄利克雷分布对类概率建模,从原分支模态特征和交互特征中,根据特征的不确定性,选择有效的模态特征进行单模态的动作识别,并参与最后的融合决策,所述融合决策被设置为包括:序列到序列的模态融合以及决策层的模态间动态融合;

11、所述的序列到序列的模态融合被设置为:基于模态内特征选择获得的有效特征,展平时空维度的信息得到序列,然后两个模态进行序列到序列的交叉注意力计算得到融合特征;

12、所述的模态间动态融合被设置为:基于模态内特征选择获得的有效特征以及序列到序列的模态融合获得的融合特征,同样使用狄利克雷分布对类概率建模,利用不确定性,从三视图中选择最有效的模态,从而得到最后的动态融合结果,所述三视图包括视觉模态特征、雷达模态特征以及经过视觉特征和雷达特征融合后得到的融合特征。

13、进一步地,对所述骨架关节点数据进行处理,生成骨架序列数据,包括:对于每帧,提取人体各个关节点的x和y坐标以及置信度,将300帧的数据叠加得到骨架序列数据。

14、进一步地,对无线数据进行信号处理,提取人体动作的微多普勒信息,生成时间-速度的微多普勒图,包括:

15、基于所述的无线数据获取发射信号和回波信号的时间差和频率信息,根据所述时间差和频率信息计算出目标人体各个部位的距离信息以及各个部位的速度信息,从而得到时间-速度的微多普勒图。

16、进一步地,对所述骨架序列进行特征提取获得视觉模态特征,包括:基于时空图卷积网络对人体骨架序列进行处理从而得到视觉模态特征,所述时空图卷积网络包括十一个堆叠的时空卷积层。

17、进一步地,对所述微多普勒图进行特征提取获得雷达模态特征,包括:基于残差网络对微多普勒图进行处理从而得到雷达模态特征,所述的残差网络包括八个堆叠的残差块。

18、较现有技术相比,本发明具有以下优点:

19、本发明动态的融合了两个模态的特征,当单一模态提供的是噪声时,会利用不确定性,使这一分支的权重减小,反而增大有效模态的特征权重。并且还利用通道交互来实现模态间的互补,充分发挥了两种模态的互补性,在两者模态都正常工作时,能提供更高的准确估计,并且在单一模态失效时,能通过模态内特征选择算法从交互特征和原特征中选择更有效的特征。本发明不仅能实现以往方法中的互补性,还能进行有效的互补。实现了模态融合的同时,进一步提升了融合效果。

20、本发明通过利用模态的不确定性,动态的选择有效的模态特征,从而解决在单一模态失效时,模型整体性能下降的问题;并且在通道维度进行特征交互,并利用模态内特征选择,实现有效的模态互补。



技术特征:

1.一种基于不确定性建模的高鲁棒视觉无线动态融合方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种基于不确定性建模的高鲁棒视觉无线动态融合方法,其特征在于,利用不确定性实现模态内特征选择以及模态间特征融合,包括:

3.根据权利要求1所述的一种基于不确定性建模的高鲁棒视觉无线动态融合方法,其特征在于,对所述骨架关节点数据进行处理,生成骨架序列数据,包括:对于每帧,提取人体各个关节点的x和y坐标以及置信度,将300帧的数据叠加得到骨架序列数据。

4.根据权利要求1所述的一种基于不确定性建模的高鲁棒视觉无线动态融合方法,其特征在于,对无线数据进行信号处理,提取人体动作的微多普勒信息,生成时间-速度的微多普勒图,包括:

5.根据权利要求1所述的一种基于不确定性建模的高鲁棒视觉无线动态融合方法,其特征在于,对所述骨架序列进行特征提取获得视觉模态特征,包括:基于时空图卷积网络对人体骨架序列进行处理从而得到视觉模态特征,所述时空图卷积网络包括十一个堆叠的时空卷积层。

6.根据权利要求1所述的一种基于不确定性建模的高鲁棒视觉无线动态融合方法,其特征在于,对所述微多普勒图进行特征提取获得雷达模态特征,包括:基于残差网络对微多普勒图进行处理从而得到雷达模态特征,所述的残差网络包括八个堆叠的残差块。


技术总结
本发明公开了一种基于不确定性建模的高鲁棒视觉无线动态融合方法,包括:获取目标人体动作视频帧序列,获取骨架关节点数据和雷达数据;将骨架关节点数据处理生成成骨架序列数据;将无线数据处理生成时间‑速度的微多普勒图;对所述骨架序列进行特征提取获得视觉模态特征;对所述微多普勒图进行特征提取获得雷达模态特征;对所述视觉模态特征和所述雷达模态特征进行模态间特征交互,使用狄利克雷分布对类概率建模,从而利用不确定性实现模态内特征选择以及模态间特征融合。本发明采用通道特征交互和动态融合策略,有效利用模态间的互补信息,提升融合效果和系统鲁棒性,解决了视觉和无线模态特征的有效互补、模态缺失情况导致整体性能下降的问题。

技术研发人员:刘晓凯,王洁,尤文浩
受保护的技术使用者:大连海事大学
技术研发日:
技术公布日:2024/12/5

最新回复(0)