本技术涉及遥感图像建筑检测,具体涉及一种基于分组卷积注意力网络的多尺度检测优化方法及系统。本发明可用于增强遥感图像中检测精度。
背景技术:
1、随着高分卫星的快速发展,从遥感图像中获得有用的目标检测结果,从而对卫星影像进行理解变得重要,且成为当前遥感领域的研究热点。其中建筑物检测对与乡村振兴、城市规划、灾害检测、生态环境管理和军事都有重要的意义。遥感图像中的目标检测能够为许多遥感应用提供基础数据。例如,遥感图像中的建筑物检测可以为城市管理中的违章建筑监测提供重要的违章建筑物信息。由于卷积神经网络强大的特征提取能力,目前基于深度卷积神经网络的目标检测算法在建筑物检测的领域比较流行。但是,遥感图像与一般的图像不同,例如,遥感图像的幅宽都比较大,普通的图像幅宽能到达几十千米,带来的结果是遥感图像中能够区分的目标的尺度差异很大,给遥感图像中的目标检测带来了困难和挑战。
2、girshick等人在2014年发表论文“rich feature hierarchies for accurateobject detection and semantic segmentation”(in proceedings of the ieeeconference on computer vision and pattern recognition),成功将深度学习方法应用到目标检测上,它使用传统的selective search算法对图像进行裁剪,然后通过神经网络进行特征提取,最后通过svm进行分类。但是由于其需要将裁剪后的图像送入网络2000次,大大增加了网络的开销,检测速度较慢。
3、2015年,girshick借鉴了sppnet的思想发表论文“fast r-cnn”(in proceedingsof the ieee international conference on computer vision),采用映射的方式对r-cnn进行改进提出了fast r-cnn,首先拿到一张图片,使用selective search选取建议框,然后将原始图片输入卷积神经网络之中,获取特征图,对每个建议框,从特征图中找到对应位置(按照比例寻找即可),截取出特征框(深度保持不变)将每个特征框划分为(7x7)个网格,然后对每个矩阵拉长为一个向量,分别作为之后的全连接层的输入,全连接层的输出有两个,计算分类得分和bounding box回归,最后对输出的得分矩阵使用非极大抑制方法选出少数框。该方法不仅提高了检测速度,而且同时提高了检测精度。但是没有解决端到端的问题,检测速度仍然比较慢。
4、shaoqing ren和kaiming he等人发表论文“faster r-cnn: towards real-timeobject detection with region proposal networks”(advances in neuralinformation processing systems),在fast r-cnn的基础上继续改进,他们在fast r-cnn的基础上引入了一个区域建议网络(rpn),通过rpn网络对提取的特征生成建议框,然后将生成的建议框和特征图送到roipooling中进行裁剪,然后送到fast r-cnn预测头中进行预测。改方法使得fast r-cnn成为一个端到端的目标检测网络,在保持检测精度的同时,显著的提高检测速度。
5、li等人发表论文“selective kernel networks”,提出的sknet的工作中,设计了一个称为sk单元的网络模块,该模块包含多个具有不同内核大小的分支。这些分支在信息的引导下,使用softmax注意力机制进行融合,从而实现自适应感受野大小的调整。显示了分组卷积有助于提高多尺度特征的表征能力。
6、qin等人发表论文“fcanet: frequency channel attention networks”,提出了多光谱通道注意力框架,将通道注意力机制从传统的标量表示推广到频域中的多个频率分量表示。这一框架能够更全面地捕获通道特征信息,提高模型的表示能力。这表明通道注意力机制可以专注于对任务最有用的多尺度特征,这也展示了其对多尺度特征的捕获效果。
7、但是,相比于普通场景的图像,由于遥感图像中能够区分的目标的尺度差异很大,使得一般的基于卷积神经网络的检测模型在特征提取阶段,提取的特征不完善,以至于接下来的检测精度不理想。
技术实现思路
1、本发明的目的在于针对现有技术不足,提出一种基于分组卷积注意力网络的多尺度检测优化方法,解决了由于遥感图像中目标的尺度差异很大等一系列原因导致的特征提取不完整,检测精度低的问题。
2、本发明的实现思路是:首先,构造分组卷积注意力网络模块,将构造好的分组卷积注意力网络模块引入到一般的基于卷积神经网络的物体检测模型中。然后,划分物体检测数据集,对数据集中的图像进行预测处理,使用训练数据用物体检测模型和解码器进行协同训练。最后,将验证数据送入到检测模型进行检测,得到检测结果。
3、本发明的具体步骤如下,
4、步骤1,构建分组卷积注意力网络模块:
5、构建一个由特征分组模块和注意力提取模块的分组卷积注意力网络模块。其中特征分组模块的结构依次为:1×1卷积→bn层→分组卷积块;其中分组卷积块的结构是通过普通卷积层将输出通道设置为输入通道的1/8并且每个卷积块设置独自的分组数;
6、其中注意力提取模块的结构依次为:扩张通道注意力块→特征拼接层→softmax层;其中扩张通道注意力块的结构为:relu函数→1×1卷积→3×3卷积→eca模块;eca模块由全局平均池化和一维卷积构成;特征拼接层将从扩张通道注意力模块得到的注意力权重进行拼接;
7、再之后将特征分组模块得到的特征拼接后与在注意力提取模块得到的注意力权重融合,在得到的特征后跟bn层和relu激活函数;
8、步骤2,将分组卷积注意力网络模块引入到一般的基于卷积神经网络的物体检测模型中:
9、将构建好的分组卷积注意力网络模块引入到物体检测模型的骨干网络中,使其放置在骨干网络中的三个不同的stage后,将得到的特征与原特征融合;
10、步骤3,划分物体检测数据集:
11、选取一些标注好的光学遥感图像,图像长宽不限(每个batch会对图像做预处理,将batch内图像缩放,然后填补成统一大小的图像),如果数据集类别多难训练则需要的图像要多,简单的数据集可以用1000+图像即可,然后将80%的图像组成训练集,将20%的图像组成验证集和测试集;
12、步骤4, 对数据集中的图像进行预测处理:
13、首先,对每个mini-batch中的数据进行50%的概率的水平翻转,然后对每个mini-batch中的图像固定长宽的比例,对长进行缩放至400-600大小32的整数倍,然后将宽填补至400-600大小32的整数倍;
14、步骤5,使用训练数据用物体检测模型和解码器进行协同训练:
15、第一步,将预处理的数据输入到骨干网络(resnet50或cspnext等)中进行特征提取,生成特征图c3、c4、c5;
16、第二步,将特征图送入到物体检测的检测头(yolo检测头或fast r-cnn检测头等)进行类别和边界框的预测,然后和真实标签计算交叉熵损失和边界框损失;
17、第三步,将第一步生成的特征图c3、c4、c5送入到分组卷积注意力网络模块进行特征分组模块、注意力提取模块和特征融合,然后输出和图像预处理后一样大小的特征图,然后计算预处理后的图像和特征图之间的均方差损失函数;
18、第四步,将第二步和第三步的损失函数同时回传更新整个网络结构;
19、步骤6, 将验证数据送入到检测模型进行检测:
20、第一步,将预处理的数据输入到骨干网络中进行特征提取,生成特征图c3、c4、c5;
21、第二步,将特征图c3、c4、c5送入到物体检测的检测头进行类别和边界框的预测,然后经过非最大值抑制(nms)处理生成检测结果;
22、步骤7,得到检测结果:
23、将步骤6得到检测结果映射到原图的相应位置并标注预测的类别信息。
24、本发明与现有的技术相比具有一下优点:
25、第一,该结构具有将强的嵌入型。可以嵌入在一些主流的物体检测模型,如:rtmdet和faster r-cnn等;
26、第二,虽然训练时比不引入分组卷积注意力网络模块的检测模型花费时间更长,但是不增加预测时长,而且和更深的骨干网络的预测结果相比也不逊色。
1.一种基于分组卷积注意力网络的多尺度检测优化方法,其特征在于,所述方法包括:
2.根据权利要求1中所述的基于分组注意力网络的多尺度检测优化方法,其特征在于,步骤1、2和5中所描述的构建分组卷积注意力网络模块以及分组卷积注意力网络模块的嵌入训练,针对检测模型的骨干网络设计对应的分组卷积注意力网络,并使用构建的分组卷积注意力网络模块用于和物体检测模型进行协同训练,以增强骨干网络中的特征提取能力,使检测的更强。
