一种基于知识蒸馏的室内语义图像分割方法与流程

专利查询2天前  5


本发明涉及图像处理,更具体的说是涉及一种基于知识蒸馏的室内语义图像分割方法。


背景技术:

1、智能家居和智能建筑技术的普及促使对室内环境的精确感知和理解需求急剧增加。智能家居设备,如智能音箱、智能灯光和家庭机器人等,需要准确理解和互动的室内环境,以便提供更好的用户体验。例如,家庭机器人需要识别房间中的不同物体和区域,以便高效执行任务,如清洁、送物等。这对语义分割技术提出了更高的要求,促使其快速发展。语义分割由于深度数据提供的几何信息可以补充rgb数据中的视觉信息,因此语义分割受到了广泛的关注。这种数据融合显著提高了语义分割任务的准确性和鲁棒性,特别是在复杂的室内环境中。

2、传统的室内语义分割方法主要依赖于手工设计的特征和经典的机器学习算法。这些方法通常涉及从图像中提取各种特征,例如颜色、纹理、形状和几何特征,然后将这些特征输入到分类器中进行像素级别的分类。常用的特征提取方法包括尺度不变特征变换(sift)、方向梯度直方图(hog)和局部二值模式(lbp)等。这些方法通过提取局部不变特征,可以在一定程度上应对光照变化和姿态变化的问题。然而,手工设计的特征往往具有局限性,难以全面捕捉图像中的复杂信息。

3、分类器方面,支持向量机(svm)、随机森林(randomforest)和k近邻(knn)等被广泛应用。这些经典的机器学习算法能够处理一定规模的数据,并在某些特定任务上取得成功。然而,传统方法在处理复杂和变化多样的室内场景时表现不佳。由于室内环境中的光照、遮挡和纹理相似等问题,传统方法难以保证稳定的性能。此外,这些方法通常需要大量的手工调整和经验参数选择,导致其在实际应用中的鲁棒性较差。

4、随着深度学习技术的兴起,室内语义分割领域迎来了革命性的变化。卷积神经网络(cnn)在图像处理任务中的卓越表现,使其成为语义分割的主要工具。完全卷积网络(fcn)是最早将cnn用于语义分割的模型之一,通过将全连接层替换为卷积层,实现了对输入图像的像素级分类。fcn的提出开启了语义分割技术的新篇章,使得深度学习方法在语义分割任务中迅速普及。随后,u-net、segnet和deeplab等模型进一步改进了网络结构,提升了分割性能。例如,u-net通过引入跳跃连接(skip connections),有效结合了不同层次的特征,提高了分割的精度。跳跃连接使得网络能够更好地利用低层特征,提高了对细节的捕捉能力。segnet则通过设计高效的解码器结构,减少了计算复杂度,使得网络在保持高性能的同时具备较快的推理速度。deeplab系列模型引入了空洞卷积(dilated convolution)和条件随机场(crf),在保持计算效率的同时,提高了分割结果的细节处理能力。然而,尽管深度学习方法在室内语义分割中展现了卓越的性能,它们也存在一些缺点和挑战。首先,深度学习模型对大规模标注数据的依赖性很强。高质量的大规模标注数据集在获取和标注上都需要投入大量的时间和资源,对于许多实际应用场景来说,这可能是一个巨大的障碍。其次,深度学习模型的训练过程通常非常耗时,需要大量的计算资源,尤其是在处理高分辨率图像和复杂网络结构时。这使得训练深度学习模型的成本较高,不适用于所有应用场景。

5、因此,提出一种基于知识蒸馏的室内语义图像分割方法,来解决现有技术存在的困难,是本领域技术人员亟需解决的问题。


技术实现思路

1、有鉴于此,本发明提供了一种基于知识蒸馏的室内语义图像分割方法,用于解决现有技术中存在的技术问题。

2、为了实现上述目的,本发明提供如下技术方案:

3、一种基于知识蒸馏的室内语义图像分割方法,包括训练阶段和测试阶段两个过程;其中,

4、训练阶段包括以下步骤:

5、s1-1、选取多幅原始室内场景图像和对应的深度图、真实语义分割图像,构成训练集;

6、s1-2、构建卷积神经网络;

7、s1-3、将训练集中的每幅原始的室内场景图像和对应的多光谱图进行数据增强后作为原始输入图像,输入到卷积神经网络中进行训练,得到对应的语义预测图像,记为

8、s1-4、计算语义预测图像与对应的真实语义分割图像之间的损失函数值;

9、s1-5、重复执行s1-3和s1-4共v次,直到卷积神经网络收敛,损失函数值降至最小,得到卷积神经网络分类训练模型,将与最小函数值对应的权值矢量和偏置项作为卷积神经网络分类训练模型的最优权值矢量和最优偏置项,记为wbest和bbest,其中,v>1;

10、测试阶段包括以下步骤:

11、s2-1、选取测试集中的第p组待检测的室内场景图像,并标记为sp,其中,1≤p≤p;

12、s2-2、将第p组待检测的室内场景图像的各种通道输入到训练好的模型中,模型网络输出原场景图像对应的室内语义分割预测图,记为

13、上述的方法,可选地,s1-2中卷积神经网络用于特征提取和特征融合;

14、特征提取包括rgb图像输入层、深度图像输入层、八个卷积块、三个像素和谐模块和一个高通傅里叶滤波器模块;

15、特征融合包括四个全特征融合器模块。

16、上述的方法,可选地,卷积神经网络包括教师网络和学生网络,分为编码阶段和解码阶段;

17、编码阶段包括:

18、rgb图像依次经过第一卷积块、第二卷积块、第三卷积块、第四卷积块;

19、深度图像依次经过第五卷积块、第六卷积块、第七卷积块、第八卷积块;

20、第一卷积块、第二卷积块、第三卷积块、第四卷积块与第五卷积块、第六卷积块、第七卷积块、第八卷积块垂直对应;

21、垂直对应的卷积块输出分别输入第一全特征融合器模块、第二全特征融合器模块、第三全特征融合器模块、第四全特征融合器模块;

22、第一全特征融合器模块、第二全特征融合器模块、第三全特征融合器模块输出与第二卷积块、第三卷积块、第四卷积块输出分别输入第一像素和谐模块、第二像素和谐模块、第三像素和谐模块,第一像素和谐模块、第二像素和谐模块、第三像素和谐模块输出分别输入第二全特征融合器模块、第三全特征融合器模块、第四全特征融合器模块;

23、第四全特征融合器模块与高通傅里叶滤波器模块连接;

24、解码阶段包括:

25、高通傅里叶滤波器模块与第九卷积块连接,第九卷积块输出与第三次全特征融合器模块输出进行像素级加法后输入第十卷积块,第十卷积块输出与第二次全特征融合器模块输出进行像素级加法后输入第十一卷积块,第十一卷积块输出与第一次全特征融合器模块输出进行像素级加法后输入第十二卷积块。

26、上述的方法,可选地,卷积块由多个transformer块依次连接构成;

27、transformer块由依次连接的注意力层、深度分离卷积dwconv、跳跃连接、droppath、归一化层batchnorm、激活层act、多层感知机mlp构成。

28、上述的方法,可选地,全特征融合器模块中,卷积块输出与像素和谐模块输出相加后依次经过低通傅里叶滤波器、第五最大池化、第十九卷积块、第二十卷积块、第三激活函数中,第三激活函数输出结果与卷积块输出、像素和谐模块分别相乘再相加得到输出六,输出六与像素和谐模块输出、权重二相乘,得到第一相乘结果;

29、卷积块输出与像素和谐模块输出分别经过最大池化层和平均池化层输入多层感知机mlp中,多层感知机mlp输出与像素和谐模块输出、权重一相乘,得到第二相乘结果;

30、第一相乘结果、第二相乘结果与卷积块输出逐元素相加得到全特征融合输出。

31、上述的方法,可选地,像素和谐模块包括:

32、全特征融合模块输入分别依次通过第十三卷积块、第十四卷积块和第十五卷积块、第十六卷积块后将进行级联操作得到输出二;

33、卷积模块输入分别依次经过第一最大池化、第十七卷积块、第一激活函数和第二最大池化、第十八卷积块、第二激活函数得到输出三和输出四;

34、输入二分别与输出三和输出四进行像素级乘法后相加得到像素和谐模块输出。

35、上述的方法,可选地,s1-2中卷积神经网络还包括知识蒸馏,知识蒸馏分为特征像素匹配蒸馏、关系级蒸馏和响应级别的蒸馏。

36、经由上述的技术方案可知,与现有技术相比,本发明公开提供了一种基于知识蒸馏的室内语义图像分割方法,其有益效果为:

37、1)本发明方法构建卷积神经网络,将rgb图像和深度图像输入到卷积神经网络中进行训练,得到卷积神经网络分类训练模型;再将待语义分割的室内场景图像输入到卷积神经网络分类训练模型中,得到相对应的预测语义分割图像。本发明方法在构建卷积神经网络时用全特征融合器使用频谱反褶积和傅里叶技术进行去噪。像素和谐模块通过分析和重建模式,进一步细化边缘细节。并在解码器前使用高通傅里叶滤波器提供更清晰的输入,确保详细和精确的多尺度图像分割。

38、2)此发明通过引入频域分析技术,如傅里叶变换,对图像进行频谱分解,能够捕捉到更多的结构和纹理信息。具体而言,rgb-d图像通过卷积神经网络提取特征,然后对这些特征进行频域变换,得到频域特征。通过高通滤波和低通滤波等技术,增强图像的细节和整体结构信息,并在频域和空间域中进行多层次融合。这样的方法不仅能够捕捉到图像中的高频细节,还能够有效提取低频的整体结构信息,形成更为全面的特征表示。

39、3)此发明使用三种目标知识精馏技术来简化模型性能:特征蒸馏在编码过程中对频域内的师生特征进行分层滤波,以对齐它们的相位和振幅。关系蒸馏构建了一个空间域注意图和一个像素感知域,以突出解码过程中重要的特征对和特定领域的关联。响应蒸馏通过整合频率和空间域特征来优化类别特定的响应,有效地减少了类内的变异,提高了类间的可分离性。


技术特征:

1.一种基于知识蒸馏的室内语义图像分割方法,其特征在于,包括训练阶段和测试阶段两个过程;

2.根据权利要求1所述的一种基于知识蒸馏的室内语义图像分割方法,其特征在于,

3.根据权利要求2所述的一种基于知识蒸馏的室内语义图像分割方法,其特征在于,

4.根据权利要求3所述的一种基于知识蒸馏的室内语义图像分割方法,其特征在于,

5.根据权利要求3所述的一种基于知识蒸馏的室内语义图像分割方法,其特征在于,

6.根据权利要求3所述的一种基于知识蒸馏的室内语义图像分割方法,其特征在于,

7.根据权利要求1所述的一种基于知识蒸馏的室内语义图像分割方法,其特征在于,


技术总结
本发明公开了一种基于知识蒸馏的室内语义图像分割方法,涉及图像处理技术领域。包括训练阶段和测试阶段,选取多幅原始的原始室内场景图像和对应的深度图、真实语义分割图像构成训练集,构建卷积神经网络,将训练集输入至神经网络进行训练,将得到的权值矢量和偏置项作为卷积神经网络分类训练模型的最优权值矢量和最优偏置项,得到卷积神经网络分类训练模型,输入测试集中的待检测的原始室内场景图像,模型网络输出原场景图像对应的室内语义分割预测图。本发明提升了分割的精度、效率与类间的可分离性,有效地减少了类内的变异。

技术研发人员:钱小鸿,倪静
受保护的技术使用者:银江技术股份有限公司
技术研发日:
技术公布日:2024/12/5

最新回复(0)