一种基于对比知识提炼实现RGB-D镜像分割和频域融合的语义分割方法与流程

本发明涉及图像处理，更具体的说是涉及一种基于对比知识提炼实现rgb-d镜像分割和频域融合的语义分割方法。

背景技术：

1、在计算机视觉任务中，镜面反射确实给物体检测(sod)和语义分割带来了挑战。镜像分割是计算机视觉领域中的一个特殊且具有挑战性的任务，它涉及将图像中的反射表面(如镜子或反射性物体)与其背后的场景区分开来。这项任务的重要性在于，反射表面可能会引起视觉混淆，导致分割算法错误地将反射内容识别为实际场景的一部分。为了提高分割的精度，研究人员开始将传统方法与深度学习相结合，以利用深度学习模型自动学习复杂特征的能力。深度学习在语义分割领域的应用，主要得益于其能够通过端到端的方式直接从像素级别学习数据的高级表示。这种方法不需要人工标注，可以自动地对图像中的每个像素进行分类。全卷积神经网络(ccn)是这一领域的基础，它通过多层结构自动学习特征，并且可以接受任意大小的图像输入。第一种是编码-译码架构，编码层通过池化逐步减少空间维度信息，抽取抽象特征；解码层逐步恢复对象细节和空间维度信息。通常来说，在编码层和解码层之间有称之为捷径的连接(shortcut-connections)，它们用于帮助解码层更好地恢复对象细节。不同的空洞率允许网络学习不同层次的特征，从而提高对物体大小、位置和方向的鲁棒性。

2、尽管深度学习在语义分割方面取得了显著进展，但在实际部署时仍面临一些挑战，尤其是在资源受限的移动设备上。此外，一些方法可能没有充分利用不同图像模式(如rgb和深度图像)之间的复杂关系，或者没有充分考虑全局特征对特征提取的影响，这可能导致分割结果的精度不高。为了解决这些问题，研究人员正在探索更高效的网络架构，以及如何更好地融合不同模态的图像信息。同时，也在研究如何改进网络的训练过程，以便更好地捕捉图像的全局特征和细节信息，从而提高分割的精度和鲁棒性。

3、因此，提出一种基于对比知识提炼实现rgb-d镜像分割和频域融合的语义分割方法，来解决现有技术存在的困难，是本领域技术人员亟需解决的问题。

技术实现思路

1、有鉴于此，本发明提供了一种基于对比知识提炼实现rgb-d镜像分割和频域融合的语义分割方法，更好地捕捉图像的全局特征和细节信息，从而提高分割的精度和鲁棒性。

2、为了实现上述目的，本发明提供如下技术方案：

3、一种基于对比知识提炼实现rgb-d镜像分割和频域融合的语义分割方法，包括训练阶段和测试阶段两个过程：

4、其中，训练阶段过程的具体步骤为：

5、s1-1、选取多幅原始的镜面图像，包括拍摄于不同场景的rgb图像和深度图像，构成训练集；

6、s1-2、构建卷积神经网络；

7、s1-3、对原始的rgb图像和深度图像进行预处理，将预处理后得到的增强图像作为卷积神经网络的输入，训练得到对应的预测镜面图像，预测镜面图像包括语义分割预测图像和边界预测图像，将得到的预测镜面场景图像集合记为其中，为语义分割预测图像集合，为边界预测图像集合；

8、s1-4、计算预测镜面图像与对应的真实镜面分割图像之间的损失函数值；

9、s1-5、重复执行步骤s1-3和步骤s1-4共v次，直至卷积神经网络收敛，损失函数值降至最小，得到卷积神经网络分类训练模型；

10、测试阶段包括以下步骤：

11、s2-1、选取测试集中的第p组待检测的镜面场景图像，并标记为ip，其中，1≤p≤p，p＝392；

12、s2-2、将第p组待检测的镜面图像的各种通道输入到训练好的卷积神经网络分类训练模型中，模型网络输出原镜面图像对应的镜面预测图，得到的预测图像记为

13、上述的方法，可选的，s1-1中还包括：

14、将训练集中的第q幅原始的镜面图像记为{iq(i,j)}，将训练集中与{iq(i,j)}对应的真实语义分割图像记为然后采用独热编码技术将训练集中的每幅原始的镜面图像对应的真实语义分割图像处理成q幅独热编码图像，将处理成的q幅独热编码图像构成的集合记为其中，镜面图像为rgb彩色图像，q为正整数，取q＝784，q为正整数，1≤q≤q，表示中坐标位置为(i,j)的像素点的像素值。

15、上述的方法，可选的，s1-2中的卷积神经网络包括特征提取部分和特征融合部分；特征提取部分包括rgb图像输入层、深度图像输入层和八个变压器，特征融合部分包括三个时频融合模块、一个高级特征融合模块和四个多尺度增强模块。

16、上述的方法，可选的，在卷积神经网络中：

17、rgb图像依次经过第一变压器、第二变压器、第三变压器、第四变压器，深度图依次经过第五变压器、第六变压器、第七变压器、第八变压器；

18、第四变压器和第八变压器的输出输入到第四高级特征融合模块提取全局上下文信息，经第四多尺度增强模块、第三时频融合模块、第三多尺度增强模块、第二时频融合模块、第二多尺度增强模块、第一时频融合模块、第一多尺度增强模块从高到低的方式融合浅层上下文信息后，最终得到卷积神经网络的一个输出。

19、上述的方法，可选的，高级特征融合模块包括五个卷积块、两个平均池化层、三个激活函数；

20、输入一首先进入第一卷积块，进行初步的特征提取，记为输出二，与输入一进行相乘过滤杂乱信息得到输出四；输出四叠加输入一的信息后得到融合初始信息的高维rgb信息输出六；

21、输入二首先进入第一卷积块，进行初步的特征提取，记为输出三，与输入二进行相乘过滤杂乱信息得到输出五；输出五叠加输入二的信息后得到融合初始信息的高维rgb信息输出七；

22、将高维的rgb信息输出六先通过一个平均池化一的过程得到一个压缩的rgb信息再通过第四卷积块和激活函数一处理后，得到浓缩的rgb信息输出九；将高维的rgb信息输出七先通过一个平均池化二的过程得到一个压缩的rgb信息再通过第五卷积块和激活函数三处理后，得到浓缩的rgb信息输出十；

23、将融合的高维信息通过输出六和输出七的拼接操作后分别通过第三卷积块和激活函数二得到输出八；通过输出八分别与输出九或者输出十拼接后，再将两个拼接的结果相加得到最高级特征输出十一。

24、上述的方法，可选的，第一变压器与第四卷积块结构相同，包括依次连接的自我注意力模块、特征金字塔网络、上采样；其中，自我注意力包括八个自我注意力头层，特征金字塔网络包括依次连接的卷积层、归一化层和激活层；

25、第二变压器与第四卷积块结构相同，包括依次连接的自我注意力模块、特征金字塔网络、上采样；其中，自我注意力包括四个自我注意力头层，特征金字塔网络包括依次连接的卷积层、归一化层和激活层。

26、上述的方法，可选的，s1-4中具体包括：

27、采用多类别任务损失计算真实语义分割图像处理成的独热编码图像构成的集合与语义分割预测图构成的集合之间的子损失函数值其中i＝1；采用交叉熵损失函数分别计算真实语义分割图像处理成的独热编码图像构成的集合与边界预测图构成的集合之间的损失函数值其中i＝2，将2个子损失函数值求和后作为损失函数值。

28、经由上述的技术方案可知，与现有技术相比，本发明公开提供了一种基于对比知识提炼实现rgb-d镜像分割和频域融合的语义分割方法，具有以下

29、有益效果：

30、(1)本发明方法构建卷积神经网络，将镜面场景图像输入到卷积神经网络中进行训练，得到卷积神经网络分割训练模型；再将待语义分割的镜面场景图像输入到卷积神经网络分割训练模型中，得到相对应的预测语义分割图像。本发明方法在构建卷积神经网络时引入时频融合技术，有效地挖掘了镜像特征之间的相似性，对融合通道进行了精确的权重分配；随后，利用多尺度特征增强模块在不同尺度上对特征进行匹配，实现对象的上下文对齐，并通过控制不同尺度间的重要性来增强上下文特征。

31、(2)本发明提出的蒸馏方法，设计了特征对齐蒸馏；其次，受比较学习启发，设计了语义互补比较学习蒸馏；最后，为了提高精确度，通过最大相似度蒸馏对教师网络和学生网络的响应进行筛选，以提升特征点分布的匹配度。通过蒸馏方法使得较小的模型也拥有较好的性能表现。

技术特征：

1.一种基于对比知识提炼实现rgb-d镜像分割和频域融合的语义分割方法，其特征在于，包括训练阶段和测试阶段两个过程：

2.根据权利要求1所述的一种基于对比知识提炼实现rgb-d镜像分割和频域融合的语义分割方法，其特征在于，s1-1中还包括：

3.根据权利要求1所述的一种基于对比知识提炼实现rgb-d镜像分割和频域融合的语义分割方法，其特征在于，s1-2中的卷积神经网络包括特征提取部分和特征融合部分；特征提取部分包括rgb图像输入层、深度图像输入层和八个变压器，特征融合部分包括三个时频融合模块、一个高级特征融合模块和四个多尺度增强模块。

4.根据权利要求3所述的一种基于对比知识提炼实现rgb-d镜像分割和频域融合的语义分割方法，其特征在于，在卷积神经网络中：

5.根据权利要求3所述的一种基于对比知识提炼实现rgb-d镜像分割和频域融合的语义分割方法，其特征在于，高级特征融合模块包括五个卷积块、两个平均池化层、三个激活函数；

6.根据权利要求5所述的一种基于对比知识提炼实现rgb-d镜像分割和频域融合的语义分割方法，其特征在于，

7.根据权利要求1所述的一种基于对比知识提炼实现rgb-d镜像分割和频域融合的语义分割方法，其特征在于，s1-4中具体包括：

技术总结
本发明公开了一种基于对比知识提炼实现RGB‑D镜像分割和频域融合的语义分割方法，应用于图像处理技术领域。本发明包括训练阶段和测试阶段，训练阶段选取多幅原始的镜面图像，构成训练集；构建卷积神经网络；对原始的RGB图像和深度图像进行预处理，将预处理后得到的增强图像作为卷积神经网络的输入，训练得到对应的预测镜面图像；计算多次预测镜面图像与对应的真实镜面分割图像之间的损失函数值；直至损失函数值降至最小，得到卷积神经网络分类训练模型；测试阶段将待检测的镜面图像输入到卷积神经网络分类训练模型中，模型网络输出原镜面图像对应的镜面预测图。本发明更好地捕捉图像的全局特征和细节信息，从而提高分割的精度和鲁棒性。

技术研发人员：钱小鸿,韩振兴
受保护的技术使用者：银江技术股份有限公司
技术研发日：
技术公布日：2024/12/5

专利

最新回复(0)