本发明涉及传感器数据融合,尤其涉及一种基于多尺度局部交叉注意力的多传感器特征融合方法。
背景技术:
1、在多传感器融合的环境感知技术中,研究者们越来越注重基于激光雷达和相机的融合,其目的是为了结合图像的语义信息与点云的位置信息,进而提升环境感知的性能。该项技术需要考虑不同模态的特征对齐及融合方式,随着深度学习技术的发展,越来越多的研究采用深度学习的方法在特征级实现多传感器模态的融合。
2、特征级融合方案从传感器数据的特征层面融合,实现不同传感器之间的性能互补。这类方法将图像和点云分别用对应的主干网络进行特征提取,得到两个模态的特征图。然后通过投影的方式将两个模态的特征空间统一,再利用一个融合网络模块实现多传感器的融合。如现有技术的示例一中提出用cnn和pointnet结构分别对图像和点云进行特征提取,然后将两个模态的特征图利用一个融合网络进行处理,并预测场景中目标的位置与类别。与之类似,现有技术中示例二在图像特征提取的网络分支中添加了基于图像的2d检测目标函数,实现图像网络分支的预训练,然后通过投影的方式将图像和点云的特征对齐并融合。明显地,示例一和示例二均存在特征不匹配的潜在问题,即无论是将图像投影至3d,还是将点云投影至2d平面,都存在部分像素无法与3d点云匹配,或者部分点云无法与2d像素匹配的问题。针对这个问题,现有技术中示例三提出将图像和点云的特征转换到bev视图进行统一,在bev视图进行特征的匹配与融合,该示例融合方式简单直接,但依赖不同模态特征到bev模态转换的准确性,引入了转换误差,存在降低融合结果感知性能的可能。
3、此外,现有特征级融合方案很少关注不同模态的权重,由于不同传感器的特性不同,在融合时往往需要将其中一种模态进行投影变换到与另一种模态与之统一,尽管摄像头和雷达都具有高分辨率,能实现对环境的准确探测,但在投影变换中会丢失部分信息,使其性能下降。以上述示例一、二、三为例,如将点云投影到2d平面与图像对应,由于雷达的感知范围更广,因此会有大部分点云无法与图像像素匹配,此时雷达点云的感知效率将下降,更多的是作为图像特征的额外补充。如将图像投影到3d空间与点云对应,或将图像投影到bev视图与点云融合,此时由于图像的范围有限,无法匹配所有点云,同时图像转换到bev空间时会丢失大量信息,导致性能严重下降。此时更应该关注雷达点云特征,而图像特征作为额外补充。可见,关注特征级融合方案中不同模态的权重有利于提高融合结果的感知性能。
技术实现思路
1、本发明旨在至少解决现有特征级融合方案中存在像素和点云无法完全匹配,以及很少关注不同模态的权重,导致信息丢失,存在降低融合结果感知性能的可能的技术问题,提供一种基于多尺度局部交叉注意力的多传感器特征融合方法、装置、产品及电子设备。
2、为了实现本发明的上述目的,根据本发明的第一个方面,本发明提供了一种基于多尺度局部交叉注意力的多传感器特征融合方法,包括:获取待融合的图像和点云;将图像转换为图像特征张量,将点云转换为点云特征张量;将图像特征张量作为预设的多尺度局部交叉注意力算法的查询矩阵源数据,将点云特征张量分别作为多尺度局部交叉注意力算法的键矩阵源数据和值矩阵源数据,利用多尺度局部交叉注意力算法获得图像多尺度注意力加权特征;将点云特征张量作为多尺度局部交叉注意力算法的查询矩阵源数据,将图像特征张量分别作为多尺度局部交叉注意力算法的键矩阵源数据和值矩阵源数据,利用多尺度局部交叉注意力算法获得点云多尺度注意力加权特征;融合图像多尺度注意力加权特征和点云多尺度注意力加权特征获得模态融合特征。
3、优选地,所述多尺度局部交叉注意力算法包括:利用第一卷积对查询矩阵源数据进行卷积处理获得查询矩阵;利用第二卷积对键矩阵源数据进行卷积处理获得键矩阵;利用第三卷积对值矩阵源数据进行卷积处理获得值矩阵;遍历预设卷积核尺寸集选取邻域卷积核的卷积核尺寸,每次遍历后执行以下步骤获得选取的卷积核尺寸对应的注意力加权特征:采用邻域卷积核遍历键矩阵获得查询矩阵中每个像素在键矩阵中需要关注的键邻域,所有键邻域组成键邻域集合v_patch;采用邻域卷积核遍历值矩阵获得查询矩阵中每个像素在值矩阵中需要关注的值邻域,所有值邻域组成值邻域集合k_patch;通过键邻域集合v_patch与查询矩阵进行点积运算获得查询矩阵和键矩阵之间的相似性分数矩阵;通过所述相似性分数矩阵与值邻域集合k_patch进行点积运算获得选取的卷积核尺寸对应的注意力加权特征;累加卷积核尺寸集内所有卷积核尺寸对应的注意力加权特征获得多尺度注意力加权特征。
4、优选地,所述相似性分数矩阵scores为:
5、scores=softmax(q×k_patch)。
6、优选地,所述卷积核尺寸集为:{1×1,3×3,5×5}。
7、优选地,所述将图像转换为图像特征张量,包括:利用cnn网络提取图像的图像特征,将所述图像特征作为图像特征张量,所述图像特征张量大小为(c,h,w),其中,c表示通道数,h表示行数,w表示列数。
8、优选地,所述将点云转换为点云特征张量,包括:
9、将点云转换为离散的多个体素,获取每个体素的多个属性,所述多个属性包括中心点坐标、点的数量、最高点位置和平均位置;
10、利用voxelnet特征学习网络将每个体素或体素组转换为一个特征向量,组合所有特征向量获得点云特征张量,点云特征张量大小为(c,h,w)。
11、为了实现本发明的上述目的,根据本发明的第二个方面,本发明提供了一种基于多尺度局部交叉注意力的多传感器特征融合装置,用于实现本发明第一方面所述的一种基于多尺度局部交叉注意力的多传感器特征融合方法,包括:获取模块,获取待融合的图像和点云;转换模块,将图像转换为图像特征张量,将点云转换为点云特征张量;图像多尺度注意力加权特征获取模块,将图像特征张量作为多尺度局部交叉注意力模块的查询矩阵源数据,将点云特征张量分别作为多尺度局部交叉注意力模块的键矩阵源数据和值矩阵源数据,利用多尺度局部交叉注意力模块获得图像多尺度注意力加权特征;点云多尺度注意力加权特征获取模块,将点云特征张量作为多尺度局部交叉注意力模块的查询矩阵源数据,将图像特征张量分别作为多尺度局部交叉注意力模块的键矩阵源数据和值矩阵源数据,利用多尺度局部交叉注意力模块获得点云多尺度注意力加权特征;融合模块,融合图像多尺度注意力加权特征和点云多尺度注意力加权特征获得模态融合特征。
12、为了实现本发明的上述目的,根据本发明的第三个方面,本发明提供了一种计算机程序产品,包括计算机程序/指令,该计算机程序/指令被处理器执行时实现本发明第一方面所述的一种基于多尺度局部交叉注意力的多传感器特征融合方法的步骤。
13、为了实现本发明的上述目的,根据本发明的第四个方面,本发明提供了一种电子设备,所述电子设备包括:至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行如本发明第一方面所述的一种基于多尺度局部交叉注意力的多传感器特征融合方法。
14、本发明通过多尺度局部交叉注意力算法/模块实现了图像和点云的多尺度特征交互,分别提取出图像多尺度注意力加权特征和点云多尺度注意力加权特征,再融合图像多尺度注意力加权特征和点云多尺度注意力加权特征获得模态融合特征,实现了不同模态特征的对齐和加权,使像素和点云完全匹配,减少了多模态融合中的信息丢失,将相似性分数矩阵scores作为图像特征张量或点云特征张量的权重,实现了加权融合,提升了最终获得的模态融合特征的感知性能;其中,在多尺度局部交叉注意力算法/模块中,在求取多尺度注意力加权特征的交互过程中,查询矩阵只关注与之对应位置邻近范围内的键值信息,这种方式除了降低计算量以外,还利于特征的对齐与加权,且邻域卷积核采用不同的卷积核尺寸获取注意力加权特征,能够帮助捕捉不同层级的特征,并且在不显著增加计算复杂度的前提下实现,该局部注意力机制可以使图像和点云在交互时只关注局部区域的特征,相较于全局注意力能有效降低计算复杂度,并且可以更便于实现特征对齐;在多尺度局部交叉注意力算法/模块中,以第一卷积、第二卷积、第三卷积这种卷积方式计算查询矩阵、值矩阵和键矩阵,能更好捕获特征的空间关系,能更好的适用于图像应用。
1.一种基于多尺度局部交叉注意力的多传感器特征融合方法,其特征在于,包括:
2.如权利要求1所述的一种基于多尺度局部交叉注意力的多传感器特征融合方法,其特征在于,所述多尺度局部交叉注意力算法包括:
3.如权利要求2所述的一种基于多尺度局部交叉注意力的多传感器特征融合方法,其特征在于,所述相似性分数矩阵scores为:
4.如权利要求2所述的一种基于多尺度局部交叉注意力的多传感器特征融合方法,其特征在于,所述卷积核尺寸集为:{1×1,3×3,5×5}。
5.如权利要求1-4之一所述的一种基于多尺度局部交叉注意力的多传感器特征融合方法,其特征在于,所述将图像转换为图像特征张量,包括:利用cnn网络提取图像的图像特征,将所述图像特征作为图像特征张量,所述图像特征张量大小为(c,h,w),其中,c表示通道数,h表示行数,w表示列数。
6.如权利要求5所述的一种基于多尺度局部交叉注意力的多传感器特征融合方法,其特征在于,所述将点云转换为点云特征张量,包括:
7.一种基于多尺度局部交叉注意力的多传感器特征融合装置,用于实现权利要求1-6之一所述的一种基于多尺度局部交叉注意力的多传感器特征融合方法,其特征在于,包括:
8.如权利要求7所述的一种基于多尺度局部交叉注意力的多传感器特征融合装置,其特征在于,所述多尺度局部交叉注意力模块包括:
9.一种计算机程序产品,包括计算机程序/指令,其特征在于,该计算机程序/指令被处理器执行时实现权利要求1-6之一所述方法的步骤。
10.一种电子设备,其特征在于,所述电子设备包括: