本发明属于显著性物体排名方法的领域,具体涉及一种无失真的轻量级全景环境细粒度感知方法。
背景技术:
1、360°全景图像能够提供水平方向360度和垂直方向180度的全方位视野,已经在自动驾驶、视频导航和虚拟现实等领域得到了广泛的应用。这种全景视野扩展了环境感知的广度,但同时也相应增加了环境感知的复杂度,因为操作者或自动系统需要在一个广阔且不断变化的环境中快速做出响应。为了精确处理这种高复杂度的全景图像并实现高效的决策支持,需要对全景环境进行细粒度的感知,其中物体显著性/重要性排名就是一个有力的工具。通过精确评估环境中各个物体的重要性,能够更好地理解和预测环境中潜在的动态变化,从而提供更安全、更高效的应对策略。
2、现有显著性物体排名方法在对重要性物体的理解和建模方面取得了一定的进展,但这些方法通常涉及复杂的网络结构,导致推理速度缓慢。例如,主流排名网络涉及复杂的多尺度特征融合及非极大值抑制(nms)后处理等操作,这些复杂的操作在处理大规模数据集时尤其耗时。为加快模型运行速度,模型轻量化技术已被广泛应用于分类、检测及图像分割领域,主要通过模型压缩和轻量化模型设计实现。模型压缩涉及对预训练的模型进行压缩优化处理,以减少模型参数的规模并降低计算复杂度。然而,为确保压缩后模型的性能不受影响,通常需要依赖大量预训练数据和充足的计算资源,从而增加了训练成本。与之相对的轻量化模型设计不依赖预训练,从零开始直接设计精简且高效的神经网络模型,本发明遵循此种模型轻量化设计。
3、全景图像通常以等距圆柱投影(erp)格式存储,该格式的投影特性导致图像在上下两级存在显著的失真。现有的物体重要性排名方法在处理这种由镜头特性引起的失真时往往效果不佳,从而导致物体重要性排名的准确性降低,进而影响到后续的准确决策。此外,全景图像中物体众多,使得很多现有方法在物体重要性的判断上存在模糊性,难以区分具有相同语义的不同物体的重要性程度。最为关键的是,传统的显著性物体排名方法主要识别环境中的显著物体,这种低信息量的预测结果极大地制约了计算机感知和理解场景的能力。
4、综上所述,全景环境细粒度感知存在三个技术挑战:一、图像失真问题,由于全景图像拼接和镜头曲率容易引起严重的图像失真,这种失真扭曲了图像中的物体形状和大小,对场景分析和物体重要性预测的准确性构成了挑战,因为标准的图像处理算法往往假设图像拥有正常的比例和视角;二、物体重要性排名的准确性问题,在复杂的全景环境中物体众多,且它们在视觉呈现上存在失真和扭曲,导致现有方法对于具有相同语义的不同物体的重要性程度的判定存在模糊性,难以进行有效区分。三、模型轻量化及效率问题,轻量化设计的挑战在于如何在保持模型性能的同时,显著减少其计算复杂度和内存占用。
5、本发明从全景场景的细粒度物体重要性排名问题入手,探究全景环境的细粒度感知与解析。其中,细粒度物体重要性排名被定义为分割图像中的所有可识别的重要物体,并根据它们的显著性/重要性程度进行排名。
技术实现思路
1、本发明为了解决背景技术中存在的技术问题,目的在于提供了一种无失真的轻量级全景环境细粒度感知方法,该方法能够实现全景环境的细粒度、高精度和高效的全面感知和解析。本发明通过引入失真自适应编码器解决全景图像中的几何失真问题;针对物体重要性排名的模糊性问题,提出了自步迭代策略,每次迭代仅确定一个物体的重要性排名,直到所有物体的重要性排名完成为止;整体的网络结构采用轻量级的编码器和解码器结构设计,使模型能够实现实时处理速度。
2、为了解决技术问题,本发明的技术方案是:
3、一种无失真的轻量级全景环境细粒度感知方法,所述方法包括:
4、s1:获取全景场景图像细粒度物体重要性排名数据集,并构建无失真的轻量级细粒度物体重要性排名初始模型;
5、s2:使用所述全景场景图像细粒度物体重要性排名数据集对初始模型进行训练,得到更适配全景图像的细粒度物体重要性排名预测模型;
6、s3:对全景场景图像细粒度物体重要性排名数据集的每个erp全景图进行预处理,得到标准化的erp全景图像;
7、s4:将所述标准化后的erp全景图像输入到失真自适应编码器中,得到无失真的erp全景图特征;
8、s5:把所述无失真的erp全景图特征输入到轻量级像素解码器,获取多尺度的全局特征;
9、s6:将多尺度特征输入双路transformer解码器,得到细化的图像特征及物体查询,通过轻量级三分支预测头分别得到类别预测、像素级二值掩码预测及物体重要性排名预测,其预测结果共同构成最终的细粒度场景重要性感知结果。
10、本发明介绍了一种具有轻量化编码器和解码器网络结构的重要性排名方法,该方法能够实现每秒15帧的实时推理速度,从而使得本发明的模型不仅可以便捷地部署在移动端硬件上,还增强了模型在下游应用场景中的可用性和适应性。
11、本发明中提出的失真自适应编码器专门用于处理erp全景图像的几何失真问题。其创新之处在于采用窗口网格切分和窗口内旋转一致性度量技术,这些技术可以作为通用插件,嵌入现有的2d显著性物体排名网络中,使其能够适应全景场景的处理需求。
12、本发明的重要性排名分支采用了一种自步迭代更新策略,每次迭代只推理最重要的物体,有效避免了相对重要性排名的模糊性。每次迭代都共享网络参数,不仅降低了模型的参数规模,还确保了重要物体的个数不受物体数量的限制,从而能够进行更全面的重要物体推理。
13、本发明采用分阶段的任务设计策略,首先使用轻量级的模型区分重要前景与不重要背景,随后进行更为复杂的全景物体重要性排名,确保了模型在各个阶段的高效性和准确性。
14、进一步,所述步骤s1包括:
15、s101:获取真实erp全景场景图像数据集合;
16、s102:对所述全景场景图像数据集合进行人工标注,获取所有可识别重要物体的二值分割掩码及整图的真实人眼注视点数据;
17、s103:利用所述重要物体的二值分割掩码和由真实人眼注视点数据生成的erp全景显著图,通过计算物体掩码内全景显著图的最大值来评估erp图像内重要物体的重要性程度,得到初始的实例级物体重要性排名数据集;
18、s104:对所述初始数据集进行人工复检和补充标注,确保数据集的精度和细粒度,得到最终的细粒度物体重要性排名数据集,并划分为训练集和测试集。
19、进一步,所述无失真的轻量级细粒度物体重要性排名初始模型采用fastinst模型作为基础网络架构。
20、进一步,所述步骤s2对初始模型进行训练,具体包括:
21、s201:利用重要物体的二值分割掩码及物体类别标签分别训练像素级二值掩码分支及分类分支;
22、s202:训练完成后,固定已训练好的模型权重,并引入细粒度物体重要性排名标签,对像素级二值掩码分支、分类分支以及新增的重要性排名分支进行综合微调,使模型能够同时处理这三个分支的任务,得到更适配全景图像的细粒度物体重要性排名预测模型。
23、进一步,所述图像预处理采用图像去均值处理,通过从每个erp全景图像中减去训练集图像的像素均值,实现全景图像的标准化。
24、进一步,所述步骤s4,具体包括:
25、s401:将所述标准化的erp全景图像映射成多个无失真的子窗口补丁,无失真映射规通过以下公式组表示:
26、subwinssph=gridavg(ferp→sph(erp)),
27、subwinsnodis=fsph→plane(dila(subwinssph)),
28、其中,erp表示等距柱状投影格式下的图片,由于erp投影将经纬线映射为恒定间距的垂直线,在不同角度引起了不同程度的失真,ferp→sph表示erp到球面的投影映射函数,gridavg表示对球面进行平均的网格状分割,subwinssph表示分割后的球面子窗口集合,dila表示扩展操作,将球面每个子窗口的面积增大至1.5倍以得到重叠的子窗口,fsph→plane表示球面到平面的投影映射函数,subwinsnodis表示无失真的子窗口补丁;
29、s402:将所述多个无失真的子窗口补丁馈入线性投影层,然后通过多个swintransformer块得到无失真erp全景图特征,其中,所述swintransformer块在原始基于移位窗口的sw-msa模块后面增加一层旋转注意力模块rotaryattentionmodule ram,解决erp格式下两端物体不连续的问题;
30、所述改进的swintransformer块具体实现如下:
31、xh=wmsa(ln(xh-1))+xh-1,
32、xh+1=swmsa(ln(xh))+xh,
33、xh+2=ram(ln(xh+1))+xh+1,
34、其中,wmsa表示基于常规窗口的多头自注意力,swmsa表示滑动窗口的多头自注意力,ram表示旋转注意力模块,ln表示归一化层。
35、进一步,所述轻量级像素解码器在初始像素解码器的基础上改进得到,改进的轻量级像素解码器在原始像素解码器结构的基础上进行了关键的结构调整,将输出的多尺度全局特征的层级从第四层卷积层c4更改为第五层网络层c5,并在五个卷积层之后增添辅助分类头,以产生每个像素的类概率预测;
36、改进的轻量级像素解码器具有以下结构:
37、
38、其中,f5表示第五个swintransformer块输出的高级特征,ppm表示金字塔池化模块,cu表示卷积加上采样操作,表示上下文聚合特征,conv表示卷积操作,表示矩阵加法,concat表示叠加操作。
39、进一步,所述步骤s6具体包括:
40、s601:将融合后的多尺度特征c5、结合k个实例激活引导物体查询qg以及n个辅助可学习物体查询qa输入至双路transformer解码器中,获得更细粒度的像素特征fpxi和物体查询qe;
41、s602:对所述物体查询qe执行多层全连接操作,得到最终的类别预测;
42、s603:通过对像素级特征fpxi以及物体查询qe相乘得到重要性物体像素级二值掩码预测;
43、s604:对所述物体查询qe执行交叉注意力操作以更新物体查询,所述更新过程如下公式所示:
44、
45、其中,crossattn表示交叉注意力,n表示单张图像内包含的物体个数,qei和qej属于任意物体查询qe的实例级特征,vhis表示访问历史编码,表示更新后的物体查询;
46、s605:对更新后的物体查询执行两次残差门控图卷积操作,以学习物体间的相互关系,所述图卷积操作使用以下公式表示:
47、
48、其中,rgcn表示残差门控图卷积操作,表示更新够的物体查询,ω表示图卷积的可学习参数,v'表示更新后的节点特征;
49、s606:通过sigmoid函数对节点特征v'进行归一化处理得到当前迭代最重要的物体索引ranki;
50、s607:执行自步迭代策略,重复以上步骤s604、s605和s606,直到得到所有物体的重要性排名为止。
51、一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述中任一项所述的一种无失真的轻量级全景环境细粒度感知方法。
52、一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,该程序被处理器执行时实现上述中任一项所述的一种无失真的轻量级全景环境细粒度感知方法。
53、与现有技术相比,本发明的优点在于:
54、现有显著性物体排名方法通常涉及复杂的网络结构,导致推理速度较慢。本发明通过设计轻量级的编码器和解码器网络结构,有效减少了模型的计算量,从而显著提高了模型训练及推理速度。此外,该模型的失真自适应编码器能够有效缓解erp投影的几何失真问题。
55、现有的模型轻量化技术中,模型蒸馏方法广泛应用,但这种方法过度依赖于大模型以及大规模数据集的预训练,同时在知识转移过程中容易丢失关键信息。本发明提出了一种结合轻量化模型设计与参数共享策略的新方法,这种方法减少了对大型预训练模型的依赖,还有效降低了模型的参数量,提高了运算效率。
56、现有的显著物体排名方法在检测显著物体的数量上存在限制,通常最多检测8个对象,或者模型在推理时固定输出特定数量的显著物体(通常为5个)。这种设计固有的限制降低了模型在完整表征真实人眼感知能力方面的效果。本发明采用了一种自步迭代更新策略,每次迭代只推理最显著的物体,直到获得所有物体的重要性排名为止。这种方法不仅允许模型灵活处理任意数量的重要物体避免了排名的模糊性问题,还能更准确地模拟人类视觉的注意力机制。
57、目前主流的显著性物体排名方法采用端到端的训练方式,这种方式容易导致模型权重偏向单一任务分支,影响整体的优化和性能。本发明采用分阶段的任务训练策略,通过逐步优化不同任务模块来避免多任务同时优化带来的复杂性。该方法简化训练过程的同时还确保了模型在每个阶段的高效性和准确性。
1.一种无失真的轻量级全景环境细粒度感知方法,其特征在于,所述方法包括:
2.根据权利要求1所述的一种无失真的轻量级全景环境细粒度感知方法,其特征在于,所述步骤s1包括:
3.根据权利要求1所述的一种无失真的轻量级全景环境细粒度感知方法,其特征在于,所述无失真的轻量级细粒度物体重要性排名初始模型采用fastinst模型作为基础网络架构。
4.根据权利要求1所述的一种无失真的轻量级全景环境细粒度感知方法,其特征在于,所述步骤s2对初始模型进行训练,具体包括:
5.根据权利要求1所述的一种无失真的轻量级全景环境细粒度感知方法,其特征在于,所述图像预处理采用图像去均值处理,通过从每个erp全景图像中减去训练集图像的像素均值,实现全景图像的标准化。
6.根据权利要求1所述的一种无失真的轻量级全景环境细粒度感知方法,其特征在于,所述步骤s4,具体包括:
7.根据权利要求1所述的一种无失真的轻量级全景环境细粒度感知方法,其特征在于,所述轻量级像素解码器在初始像素解码器的基础上改进得到,改进的轻量级像素解码器在原始像素解码器结构的基础上进行了关键的结构调整,将输出的多尺度全局特征的层级从第四层卷积层c4更改为第五层网络层c5,并在五个卷积层之后增添辅助分类头,以产生每个像素的类概率预测;
8.根据权利要求1所述的一种无失真的轻量级全景环境细粒度感知方法,其特征在于,所述步骤s6具体包括:
9.一种计算机设备,其特征在于,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现权利要求1至8中任一项所述的一种无失真的轻量级全景环境细粒度感知方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,该程序被处理器执行时实现权利要求1至8中任一项所述的一种无失真的轻量级全景环境细粒度感知方法。