1.本发明属于人工智能技术领域,更具体地说,涉及一种面向移动端应用的人体目标分割方法及系统。
背景技术:
2.目前高精度的安防摄像应用在城市当中的运用越来越多,为了更有效地减少城市中各类事故、犯罪的发生,不仅仅需要对场景中目标提供类别的判断,还要提供该目标的空间位置附加信息,例如质心和轮廓框。
3.现有的移动端人体分割的方法的方法主要分为传统算法和基于深度学习两类。基于传统算法的目标分割,例如阈值分割、区域增长和分水岭等方法,虽然在部署时对设备计算要求低,但检测效果拆强人意,只能提供参考意义而不能为场景目标提供有效的空间位置信息;基于深度学习的目标分割算法部署时,例如segnet,maskrcnn,rnn等算法结构,受到安防部署设备的场景和性能要求等诸多因素影响,往往难以平衡,无法达到网络结构轻便、分割准确的目的。
4.针对上述问题也进行了相应的改进,如中国专利申请号cn201811538248.8,申请日为2018年12月16日,该专利公开了一种基于fcn-aspp网络的冰盖雷达图像冰层精细化分割方法,通过将雷达振幅图像作为网络的训练样本,针对冰层图像数据少的问题做了相应的数据扩增,扩大了该发明的广泛适用性。对冰盖图像进行了lee滤波。为了尽可能保存边缘信息,对滤波过程增加了阈值判断过程。该发明通过构建fcn-aspp的冰层分割深度网络,通过对aspp层进行改进,加强了该网络对于小尺度特征的提取能力。将初步分类结果通过crf做进一步处理,在实现端到端的像素级分割的基础上进一步精细化了分割结果。此外,该网络极大的实现了自主学习的过程。该专利的不足之处在于:虽能在一定程度上精细化了分割结果,但整体的实时性以及适用性较窄。
5.又如中国专利申请号cn202010290902.9,公开日为2020年04月14日,该专利公开了一种用于无人驾驶的目标检测方法、设备及存储介质,所述方法包括以下步骤:通过采集无人驾驶车辆所处环境中的原始图像,并对原始图像进行特征提取,生成特征图张量;利用多个卷积层对特征图张量进行卷积运算,依次生成多个第一目标特征图张量,对末次卷积运算对应的第一目标特征图张量分别进行反卷积运算,生成多个反卷积特征图张量;其中,反卷积特征图张量与第一目标特征图张量一一对应,且反卷积特征图张量中特征图的尺寸等于第一目标特征图张量中特征图的尺寸;根据反卷积特征图张量与第一目标特征图张量,生成目标检测结果。提高了目标检测的精度,进而实现无人驾驶车辆对目标物体的准确检测,提高车辆行驶安全。该专利的不足之处在于:整个方法网络结构复杂,分割也不够准确。
技术实现要素:
6.1、要解决的问题
7.针对现有技术中存在的受到安防部署设备的场景和性能要求等诸多因素影响,往无法实现在网络结构轻便于分割准确之间平衡的问题,本发明提供一种面向移动端应用的人体目标分割方法,本发明的方法通过优化现有深度学习网络结构,保证了在移动端性能和精度的平衡,解决了不同场景下目标轮廓信息不足、目标分类不准确的问题。
8.2、技术方案
9.为解决上述问题,本发明采用如下的技术方案。
10.作为本技术的第一个方面,提供一种面向移动端应用的人体目标分割方法,其特征在于,包括以下步骤:
11.步骤s100、获取训练样本集,所述训练样本中包括多张包含人体目标对象的原始训练样本图像;
12.步骤s200、对所述训练样本进行预处理;
13.步骤s300、将预处理后的训练样本输入至深度学习网络框架caffe进行特征提取,得到网络模型文件caffemodel,所述深度学习网络框架caffe包括轻量级网络mobilenetv3和空洞空间卷积池化金字塔aspp,所述轻量级网络mobilenetv3用于对预处理过后的训练样本进行特征初提取,得到原始特征图;所述空洞空间卷积池化金字塔aspp用于对原始特征图进行高层特征提取,得到高层特征图;
14.步骤s400、将输出得到的网络模型文件caffemodel经格式转换后部署到移动端,完成对人体目标分割并输出结果。
15.其优选的技术方案为:
16.如上所述的面向移动端应用的人体目标分割方法,步骤s200中,对所述训练样本进行预处理具体包括:
17.对训练样次进行负样本剔除和双线性插值处理。
18.如上所述的面向移动端应用的人体目标分割方法,步骤s300中,所述轻量级网络mobilenetv3结构融合mobilnetv1的深度可分离卷积以及mobilenetv2的倒残差结构,所述mobilenetv2的倒残差结构中引入有通道自注意力机制以及空间自注意力机制,并使用h-swish激活函数加速网络训练。
19.如上所述的面向移动端应用的人体目标分割方法,步骤s300中,空洞空间卷积池化金字塔aspp包括三个并行的空洞卷积层、一个池化层和一个1
×
1的降维卷积层,三个空洞卷积层的空洞卷积核大小为3
×
3,dilation参数分别设置为1、3、6个像素,滑动步长为1个像素;三个空洞卷积层的输出端连接在同一个合并输出通道上,合并输出通道后连接1
×
1的降维卷积层,池化层选择最大值池化层。
20.如上所述的面向移动端应用的人体目标分割方法,步骤s400之前,还包括:采用饱和量化的方式对模型进行量化,具体的量化公式为:
[0021][0022]
上式中,x为原有32bit浮点数据,scale为映射步长比,bias为零点,x
int
为量化时浮点数对应的中间值,xq为量化后的值,a,b分别为截断上限和下限。
[0023]
如上所述的面向移动端应用的人体目标分割方法,步骤s400中,将输出得到的网络模型文件经格式转换后部署到移动端具体包括:
[0024]
步骤s410、判断网络模型文件类型是否为caffemodel,若是,则进入步骤s420;否则进入步骤s430;
[0025]
步骤s420、将网络模型文件caffemodel输入转换工具,转换为移动端支持的wk格式模型;
[0026]
步骤s430、将格式转换后生成的wk格式网络模型文件与初始的caffemodel网络模型文件的余弦相似度进行对比,若二者的余弦相似度大于设定阈值,则判定为转换成功得到wk格式网络模型文件,否则逐层排查余弦相似度,重新进行转换。
[0027]
本技术的第二个方面,提供一种面向移动端应用的人体目标分割系统,使用如权利要求1-5任一项权利要求所述的面向移动端应用的人体目标分割方法实现。
[0028]
3、有益效果
[0029]
相比于现有技术,本发明的有益效果为:
[0030]
(1)本发明通过对现有的网络结构做出优化,采用轻量级网络mobilenetv3和空洞空间卷积池化金字塔aspp组合方式作为深度学习框架对数据进行训练以此来优化适应移动端,其中,采用移动端轻量级网络mobilenetv3的模块来提取数据的特征信息,方便网络模型文件在后续移动端的部署;同时针对嵌入式部署环境对aspp结构进行优化,调整其每个空洞卷积的大小使得网络的结构更轻量、更适应嵌入式部署;同时aspp结构中不同大小的空洞卷积核可以大幅增加对各类场景目标中位置信息的敏感度,提高轮廓信息的准确性;在上述基础上,最终能够从能够平衡设备性能和应用场景,保证了在移动端性能和精度的平衡,解决了不同场景下目标轮廓信息不足、目标分类不准确的问题;
[0031]
(2)本发明通过负样本剔除可以提高场景信息特征的有效性,双线性插值改变原始数据的尺寸加快网络的处理速度;整个对数据进行预处理的过程既保证了数据质量的同时又加快了整体数据处理的速度,大幅度提高工作效率与检测精度;
[0032]
(3)本发明通过将网络模型文件转化成移动端匹配的格式,便于移动端的移植,同时对该格式进行验证,保证准确性;并且对转换工具不支持的网络结构层进行对应的操作,保证经过深度学习框架训练的网络模型文件能够顺利部署到移动端,充分考虑到了不同情况的发生,使得整个方法的包容性较强,覆盖面较广。
附图说明
[0033]
图1为本发明的流程示意图;
[0034]
图2为本发明的深度学习框架结构示意图;
[0035]
图3为本发明的部署到移动端的流程示意图。
具体实施方式
[0036]
下面结合具体实施例和附图对本发明进一步进行描述。
[0037]
实施例1
[0038]
如图1、图2、图3所示,本实施例提供一种面向移动端应用的人体目标分割方法,包括以下步骤:
x1)(y-y1)。
[0058]
本实施例中,利用双线性插值的方法能够对正确标注后的数据裁剪尺寸或改像尺寸,避免无用的计算,提高训练时的效率,进而最终加快网络的处理速度;通过负样本剔除可以提高场景信息特征的有效性;
[0059]
步骤s300、将预处理后的训练样本输入至深度学习网络框架caffe进行特征提取,得到网络模型文件caffemodel,所述深度学习网络框架caffe包括轻量级网络mobilenetv3和空洞空间卷积池化金字塔aspp,所述轻量级网络mobilenetv3用于对预处理过后的训练样本进行特征初提取,得到原始特征图;所述空洞空间卷积池化金字塔aspp用于对原始特征图进行高层特征提取,得到高层特征图;
[0060]
本实施例中的轻量级网络mobilenetv3结构融合mobilnetv1的深度可分离卷积以及mobilenetv2的倒残差结构,并在该轻量级特征提取网络的倒残差结构中引入通道自注意力机制以及空间自注意力机制,并使用h-swish激活函数加速网络训练,进而能够保证网络轻量级的同时对网络精度进一步提高,并且可以在网络提取到高维特征的前提下减小网络的延时,在移动端更快速;具体的应用中,轻量级网络mobilenetv3对预处理过后的训练样本进行特征提取后输出特征图张量,其中,所述特征图张量中包括多个尺寸相同的特征图,所述特征图包括多个单通道张量,每一个单通道张量中该单通道内的值与训练样本中传感器捕获的实时图像中像素点位置的种类值一一对应;
[0061]
对空洞空间卷积池化金字塔aspp而言,空间卷积池化金字塔aspp在结构设置时针对嵌入式设备计算资源的考虑,包括三个并行的空洞卷积层、一个池化层和一个1
×
1的降维卷积层,三个空洞卷积层的空洞卷积核大小为3
×
3,dilation参数(膨胀率)分别设置为1、3、6个像素,滑动步长为1个像素;三个空洞卷积层的输出端连接在同一个合并输出通道上,合并输出通道后连接1
×
1的降维卷积层;输入的特征图先进入三个空洞卷积层中卷积,进行特征提取并输出不同尺度的特征图;然后将不同尺度下的特征图进行拼接,并在1
×
1的降维卷积层中变换通道,使其与输入特征图的通道数量保持一致;池化层选择最大值池化层。
[0062]
上述3个空洞卷积的参数设置,均是通过大量的试验得出的优选参数,有利于提高本实施例中aspp结构输出的特征图的准确率。
[0063]
上述结构的空洞空间卷积池化金字塔aspp,aspp结构的空洞卷积大小比常规空洞卷积要小,这使得在移动端保证特征提取有效性的同时减少空洞卷积带来的时效性问题,使得在移动端部署后人体分割的速度更快;不仅如此,本实施例未采用反卷积网络来对最终的网络进行处理,而是直接采用双线性插值上采样的方式得到最终的结果,使得在保证网络分割精度的前提下减少网络的复杂度;
[0064]
步骤s400、将输出得到的网络模型文件caffemodel经格式转换后部署到移动端,完成对人体目标分割并输出结果。在本实施例中移动端以海思为例,具体步骤如下:
[0065]
步骤s410、判断网络模型文件类型是否为caffemodel,若是,则进入步骤s420;否则进入步骤s430;
[0066]
步骤s420、将网络模型文件caffemodel输入转换工具,转换为移动端支持的wk格式模型;
[0067]
步骤s430、将格式转换后生成的wk格式网络模型文件与初始的caffemodel网络模
型文件的余弦相似度进行对比,若二者的余弦相似度大于设定阈值,则判定为转换成功得到k格式网络模型文件,否则逐层排查余弦相似度,重新进行转换;本实施例中将格式转换后生成的wk格式网络模型文件与初始的caffemodel网络模型文件的余弦相似度进行对比主要是对转化为移动端支持的格式模型进行验证,验证的目的则为了保证转换之后模型的精确度。
[0068]
值得说明的是,在部署到移动端之前,本实施例还包括采用饱和量化的方式对模型进行量化,具体的量化公式为:
[0069][0070]
上式中,x为原有32bit浮点数据,scale为映射步长比,bias为零点,x
int
为量化时浮点数对应的中间值,xq为量化后的值,a,b分别为截断上限和下限。
[0071]
采用饱和量化的方式对模型进行量化能够降低参与冗余,从而减小存储占用、通信宽带和计算复杂度,方便后期在移动端进行部署。
[0072]
本实施例中通过对现有的网络结构做出优化,采用轻量级网络mobilenetv3和空洞空间卷积池化金字塔aspp组合方式作为深度学习框架对数据进行训练以此来优化适应移动端,其中,采用移动端轻量级网络mobilenetv3的模块来提取数据的特征信息,方便网络模型文件在后续移动端的部署;同时针对嵌入式部署环境对aspp结构进行优化,调整其每个空洞卷积的大小使得网络的结构更轻量、更适应嵌入式部署;同时aspp结构中不同大小的空洞卷积核可以大幅增加对各类场景目标中位置信息的敏感度,提高轮廓信息的准确性;在上述基础上,最终能够从能够平衡设备性能和应用场景,保证了在移动端性能和精度的平衡,解决了不同场景下目标轮廓信息不足、目标分类不准确的问题。
[0073]
实施例2
[0074]
基本同实施例1,具体的,为了进一步考虑到整个流程的全面性,在本实施中,着重讲述以海思为例在进行部署时,对海思不支持的网络进行优化。具体的,所述步骤s420中当用于格式转化的转换工具不支持网络模型文件的某个网络结构层时,可以对该网络结构层进行原理分析,通过其他网络结构层进行组合完成该网络结构层的类似功能,实现转化。譬如对本技术中mobilenetv3的激活函数hswish可以通过power+eltwise+relu成功完成替换移植的效果。当不能通过其他网络结构层进行组合完成类似功能时,可以通过分析该网络结构层底层功能直接在开发板中实现类似功能,具体的,将网络结构以未能成功转换的某个网络结构层l为截断,仅转换网络结构中l层以前的网络结构层参数,l层及以后的网络结构层均放置到开发板中用于后期实现成功转换。通过以上两种方法可对海思不支持转换的网络结构层进行成功移植到海思。充分考虑到了不同情况的发生,使得整个方法的包容性较强,覆盖面较广。
[0075]
实施例3
[0076]
本实施例提供一种面向移动端应用的人体目标分割系统,所述系统使用如实施例1或实施例2所述的面向移动端应用的人体目标分割方法实现,所述系统包括:
[0077]
样本构建模块,用于获取训练样本集,所述训练样本中包括多张包含人体目标对
象的原始训练样本图像;
[0078]
预处理模块,用于对样本构建模块构建得到的训练样本进行预处理;
[0079]
深度学习网络框架caffe,用于对预处理后的训练样本进行训练,训练得到网络模型文件caffemodel,所述深度学习网络框架caffe基础网络结构包括轻量级网络mobilenetv3和空洞空间卷积池化金字塔aspp,所述轻量级网络mobilenetv3用于对预处理过后的训练样本进行特征初提取,得到原始特征图;所述空洞空间卷积池化金字塔aspp用于对原始特征图进行高层特征提取,得到高层特征图;
[0080]
格式转换模块,用于将深度学习网络框架caffe输出得到的网络模型文件caffemodel格式转换为移动端支持的wk格式;
[0081]
部署模块,用于将格式转换模块格式转换后得到的wk格式的网络模型文件部署到移动端。
[0082]
本发明的系统由各个模块各司其职,整体构成简单,有效改善了以往移动端检测系统无法对高速运动相机为传感器进行高精度和实时的检测;由于获取数据时数据不统一,缺乏对数据进行自适应处理的能力;以及缺乏对较远目标、遮挡目标的有效检测等种种弊端,该系统满足低功耗的同时保证检测精度以及增强对数据的自适应能力,具有较高的使用前景。
[0083]
需说明的是,以上所描述的系统实施例仅仅是示意性的,描述涉及到的各模块可以是也可以不是物理上分开的,即可以位于一个网络单元,也可以分布到多个网络单元上,可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。另外,本实施例的一种面向移动端应用的人体目标分割系统与上述实施例中的一种面向移动端应用的人体目标分割方法实施例属于同一构思,其具体实现过程和有益效果详见面向移动端应用的人体目标分割方法,这里不再赘述。
[0084]
本发明所述实例仅仅是对本发明的优选实施方式进行描述,并非对本发明构思和范围进行限定,在不脱离本发明设计思想的前提下,本领域工程技术人员对本发明的技术方案作出的各种变形和改进,均应落入本发明的保护范围。
技术特征:
1.面向移动端应用的人体目标分割方法,其特征在于,包括以下步骤:步骤s100、获取训练样本集,所述训练样本中包括多张包含人体目标对象的原始训练样本图像;步骤s200、对所述训练样本进行预处理;步骤s300、采用深度学习网络框架caffe对预处理后的训练样本进行训练,训练得到网络模型文件caffemodel,所述深度学习网络框架caffe基础网络结构包括轻量级网络mobilenetv3和空洞空间卷积池化金字塔aspp,所述轻量级网络mobilenetv3用于对预处理过后的训练样本进行特征初提取,得到原始特征图;所述空洞空间卷积池化金字塔aspp用于对原始特征图进行高层特征提取,得到高层特征图;步骤s400、将输出得到的网络模型文件caffemodel经格式转换后部署到移动端,完成对人体目标分割并输出结果。2.根据权利要求1所述的面向移动端应用的人体目标分割方法,其特征在于,步骤s200中,对所述训练样本进行预处理具体包括:对训练样次进行负样本剔除和双线性插值处理。3.根据权利要求1所述的面向移动端应用的人体目标分割方法,其特征在于,步骤s300中,所述轻量级网络mobilenetv3结构融合mobilnetv1的深度可分离卷积以及mobilenetv2的倒残差结构,所述mobilenetv2的倒残差结构中引入有通道自注意力机制以及空间自注意力机制,并使用h-swish激活函数加速网络训练。4.根据权利要求1所述的面向移动端应用的人体目标分割方法,其特征在于,步骤s300中,空洞空间卷积池化金字塔aspp包括三个并行的空洞卷积层、一个池化层和一个1
×
1的降维卷积层,三个空洞卷积层的空洞卷积核大小为3
×
3,dilation参数分别设置为1、3、6个像素,滑动步长为1个像素;三个空洞卷积层的输出端连接在同一个合并输出通道上,合并输出通道后连接1
×
1的降维卷积层,池化层选择最大值池化层。5.根据权利要求1所述的面向移动端应用的人体目标分割方法,其特征在于,步骤s400之前,还包括:采用饱和量化的方式对模型进行量化,具体的量化公式为:上式中,x为原有32bit浮点数据,scale为映射步长比,bias为零点,x
int
为量化时浮点数对应的中间值,x
q
为量化后的值,a,b分别为截断上限和下限。6.根据权利要求1所述的面向移动端应用的人体目标分割方法,其特征在于,步骤s400中,将输出得到的网络模型文件经格式转换后部署到移动端具体包括:步骤s410、判断网络模型文件类型是否为caffemodel,若是,则进入步骤s420;否则进入步骤s430;步骤s420、将网络模型文件caffemodel输入转换工具,转换为移动端支持的wk格式模型;步骤s430、将格式转换后生成的wk格式网络模型文件与初始的caffemodel网络模型文件的余弦相似度进行对比,若二者的余弦相似度大于设定阈值,则判定为转换成功得到wk
格式网络模型文件,否则逐层排查余弦相似度,重新进行转换。7.面向移动端应用的人体目标分割系统,其特征在于,使用如权利要求1-6任一项权利要求所述的面向移动端应用的人体目标分割方法实现。
技术总结
本发明公开了一种面向移动端应用的人体目标分割方法及系统,属于人工智能技术领域。它包括:获取训练样本集,所述训练样本中包括多张包含人体目标对象的原始训练样本图像;对所述训练样本进行预处理;将预处理后的训练样本输入至深度学习网络框架caffe进行特征提取,得到网络模型文件caffemodel,所述深度学习网络框架caffe基础网络结构包括轻量级网络mobilenetv3和空洞空间卷积池化金字塔ASPP;将输出得到的网络模型文件caffemodel经格式转换后部署到移动端,完成对人体目标分割并输出结果。本发明保证了在移动端性能和精度的平衡,解决了不同场景下目标轮廓信息不足、目标分类不准确的问题。分类不准确的问题。分类不准确的问题。
技术研发人员:范锐军 陈潇 刘文强
受保护的技术使用者:群周智能科技(西安)有限公司
技术研发日:2021.12.08
技术公布日:2022/3/8