通过基于密集连接的知识提炼来训练神经网络的制作方法

本公开内容概括而言涉及神经网络，更具体而言，涉及通过基于密集连接的知识提炼来训练深度神经网络(deep neural network，dnn)。

背景技术：

1、dnn由于其实现高准确度的能力，被广泛用于各种人工智能应用，包括计算机视觉、话音识别和自然语言处理等等。然而，高准确度是以显著的计算成本为代价的。dnn的计算需求极高，因为每次推理可能要求数亿次mac(乘法累加)操作，以及要为分类或检测而存储的数亿个权重操作对象权重。因此，需要改善dnn的效率的技术。

技术实现思路

技术特征：

1.一种用于训练目标神经网络的方法，该方法包括：

2.如权利要求1所述的方法，其中，基于所述目标神经网络生成所述支持神经网络包括：

3.如权利要求2所述的方法，其中，各支持层和各目标层各自包括以相同结构排列的处理元素，所述处理元素被配置为执行乘法-累加操作。

4.如权利要求1所述的方法，其中，生成所述支持神经网络包括：

5.如权利要求4所述的方法，其中，所述第二支持层被配置为：

6.如权利要求4所述的方法，其中，生成所述支持神经网络还包括：

7.如权利要求6所述的方法，其中，所述第二支持层被配置为：

8.如权利要求1所述的方法，其中，所述连接是从所述支持层到所述目标层的，并且所述支持层被配置为：

9.如权利要求1所述的方法，其中，合并所述目标神经网络和所述支持神经网络还包括：在所述目标层和所述多个支持层中的另一支持层之间建立另一连接。

10.如权利要求1所述的方法，其中，通过使用所述训练数据集来训练所述合并网络包括：

11.一个或多个非暂态计算机可读介质，该介质存储指令，所述指令可执行来执行用于训练目标神经网络的操作，所述操作包括：

12.如权利要求11所述的一个或多个非暂态计算机可读介质，其中，基于所述目标神经网络生成所述支持神经网络包括：

13.如权利要求12所述的一个或多个非暂态计算机可读介质，其中，各支持层和各目标层各自包括以相同结构排列的处理元素，所述处理元素被配置为执行乘法-累加操作。

14.如权利要求11所述的一个或多个非暂态计算机可读介质，其中，生成所述支持神经网络包括：

15.如权利要求14所述的一个或多个非暂态计算机可读介质，其中，所述第二支持层被配置为：

16.如权利要求14所述的一个或多个非暂态计算机可读介质，其中，生成所述支持神经网络还包括：

17.如权利要求16所述的一个或多个非暂态计算机可读介质，其中，所述第二支持层被配置为：

18.如权利要求11所述的一个或多个非暂态计算机可读介质，其中，所述连接是从所述支持层到所述目标层的，并且所述支持层被配置为：

19.如权利要求11所述的一个或多个非暂态计算机可读介质，其中，合并所述目标神经网络和所述支持神经网络还包括：在所述目标层和所述多个支持层中的另一支持层之间建立另一连接。

20.如权利要求11所述的一个或多个非暂态计算机可读介质，其中，通过使用所述训练数据集来训练所述合并网络包括：

21.一种用于训练目标神经网络的装置，该装置包括：

22.如权利要求21所述的装置，其中，基于所述目标神经网络生成所述支持神经网络包括：

23.如权利要求21所述的装置，其中，生成所述支持神经网络包括：

24.如权利要求21所述的装置，其中，所述连接是从所述支持层到所述目标层的，并且所述支持层被配置为：

25.如权利要求21所述的装置，其中，通过使用所述训练数据集来训练所述合并网络包括：

技术总结
可以通过知识提炼来训练神经网络。基于目标神经网络生成支持神经网络。支持神经网络是教师模型，并且目标神经网络是学生模型。支持神经网络可以具有与目标神经网络相同的层。支持神经网络的一些或所有层可以被连接来促进这些层之间的数据传送。支持神经网络和目标神经网络被合并成合并网络。合并网络被训练。支持神经网络中的至少一层连接到目标神经网络中的一层以促进训练期间从目标神经网络到支持神经网络的数据传送。在训练之后，目标神经网络被从合并网络中分离并且可以用于执行机器学习任务。

技术研发人员：姚安邦,刘晓龙,陆鸣,王山东,陈玉荣
受保护的技术使用者：英特尔公司
技术研发日：
技术公布日：2024/12/5

专利

最新回复(0)