本发明涉及的是一种神经网络领域的技术,具体是一种用于深度卷积模型的双阶段模型重优化方法。
背景技术:
1、目前,深度学习算法已经在线上交易、智能安防监控、智慧城市建设等各个领域取得了深入发展,在身份识别、语音交互、智能教育有着广泛的应用。为了提高实际任务中模型的精度,基于深度神经网络的方法所需的参数量及计算资源往往较为庞大。然而,随着人工智能技术的逐步产品化以及智能应用朝着小型化方向的发展,越来越多的深度学习应用被要求部署在边缘计算设备上。在人工智能实验室内,深度学习服务器配备了充裕的存储空间与计算能力,以便于大规模深度模型的高效率训练和推理。相较之下,鉴于对成本和功耗的严格控制,边缘设备系统的存储能力和计算资源往往受到严重限制,导致在其上通常只能部署性能较差的深度模型,难以达到实验室中高性能模型的效果表现。
技术实现思路
1、本发明针对现有边缘设备应用场景中深度卷积模型模型精度不足、对原始模型选取的泛用性不足且不能满足在实际部署前提升原始模型性能的要求的问题,提出一种用于深度卷积模型的双阶段模型重优化方法,结合了基于向量级的知识蒸馏框架以及多支路的重参数化训练模块,在不改变原有模型计算量、参数量、模型结构和推理速度的情况下有效提升深度卷积模型的性能。
2、本发明是通过以下技术方案实现的:
3、本发明涉及一种用于深度卷积模型的双阶段模型重优化方法,通过在第一阶段将原始深度卷积模型改造为包含多支路的重参数化训练模块的中间模型,并对其进行蒸馏训练;在第二阶段将训练后的中间模型的重参数化训练模块进行转化,使中间模型的结构恢复为原始深度卷积模型;在在线阶段使用优化后的深度卷积模型进行实际部署。
4、所述的中间模型,将原始深度卷积模型中的3×3卷积替换为重参数化训练模块后得到。
5、所述的蒸馏训练是指:将中间模型作为学生模型、另一个更高性能的深度模型作为知识蒸馏框架中的教师模型,使用知识蒸馏框架对神经网络进行蒸馏训练。
6、所述的更高性能的深度模型,采用但不限于groupface网络、wavlm模型加上x-vector头等网络实现。
7、所述的重参数化训练模块采用但不限于与普通卷积等效转换的包含多条支路和多个卷积的卷积模块实现。
8、技术效果
9、本发明结合知识蒸馏技术和结构重参数化技术,提出中间模型的概念,并使用基于向量级的知识蒸馏框架对中间模型进行蒸馏,而不是对原始模型直接进行蒸馏。同时,通过多支路重参数化训练模块在训练阶段显著提升模型容量和特征表达能力,并在推理阶段等效地转换为单个3×3卷积。与现有技术相比,本发明在不影响原始模型的参数量、网络结构、推理速度、计算复杂度的同时,显著提升深度卷积模型的性能,且操作简单,泛用性较高,可以通用于所有基于卷积的深度学习模型。
1.一种用于深度卷积模型的双阶段模型重优化方法,其特征在于,通过在第一阶段将原始深度卷积模型改造为包含多支路的重参数化训练模块的中间模型,并对其进行蒸馏训练;在第二阶段将训练后的中间模型的重参数化训练模块进行转化,使中间模型的结构恢复为原始深度卷积模型;在在线阶段使用优化后的深度卷积模型进行实际部署。
2.根据权利要求1所述的用于深度卷积模型的双阶段模型重优化方法,其特征是,具体包括:
3.根据权利要求2所述的用于深度卷积模型的双阶段模型重优化方法,其特征是,所述的重参数化训练模块包括:3×3卷积分支、1×1卷积分支、残差连接分支、混合卷积分支以及函数激活层,其中:混合卷积分支基于倒置瓶颈结构,先采用1×1卷积增加特征图通道数,丰富特征空间,然后采用3×3卷积在通道数扩增的特征图上进行空间特征提取,最后再次通过1×1卷积将通道数缩小,输出特征图通道数与输入特征图通道数相同;残差连接分支用于解决深层网络中的梯度消失问题,使网络更加易于收敛;每个分支的输出特征图的尺寸均与输入特征图的尺寸保持一致,四条支路结果相加融合后通过函数激活层。
4.根据权利要求3所述的用于深度卷积模型的双阶段模型重优化方法,其特征是,所述的重参数化训练模块的四个分支中的卷积层后均设有一个批归一化层(bn),以对特征图进行标准化,并能够加快模型收敛速度并防止模型过拟合。
5.根据权利要求3或4所述的用于深度卷积模型的双阶段模型重优化方法,其特征是,所述的残差链接分支中进一步增设批归一化层。
6.根据权利要求2所述的用于深度卷积模型的双阶段模型重优化方法,其特征是,所述的模型重参数化技术是指:将串连的3×3卷积和bn层参数融合,合并为单一的3×3卷积;将1×1卷积和bn层转换为3×3卷积;将1×1卷积的卷积核的自身参数的外填充一圈值为0的参数以转换为3×3卷积;将bn层的可学习缩放系数进行重排,即将其视为一个1×1卷积层后,再在其自身参数外面填充一圈值为0的参数,转换后训练模块左侧三个分支均转变为单个3×3卷积,最右侧的混合卷积分支则包含1×1卷积,3×3卷积,1×1卷积串连序列。
7.根据权利要求2所述的用于深度卷积模型的双阶段模型重优化方法,其特征是,所述的融合处理,具体包括:
8.根据权利要求2所述的用于深度卷积模型的双阶段模型重优化方法,其特征是,所述的蒸馏损失其中:ft代表教师模型的输出向量,fs代表学生模型的输出向量,m代表样本数;