1.本公开涉及计算机技术领域,具体涉及深度学习等技术领域,尤其涉及图池化方法和装置、分类模型训练方法和装置、重建模型训练方法和装置、图结构数据分类方法和装置、图结构数据重建方法和装置、电子设备、计算机可读介质以及计算机程序产品。
背景技术:
2.在生物医学领域,通常需要对一个未知的生物分子结构进行性质归类或图重建,使用传统的生物学分析方法确定分子的性质或者分子重建十分耗时和费力,需要引入神经网络模型去高效准确地对分子性质进行分类或分子重建,在采用神经网络模型对生物分子结构进行性质归类或分子重建过程中需要首先对生物分子结构进行图抽象得到图结构数据,对分子的性质预测或者分子的重建可以抽象为对图结构数据的图分类或图重建。
3.图池化技术是图分类或图重建等任务中不可缺少的技术手段,通过图池化技术可以在神经网络模型中对图数据结构进行表征,而图池化是否合理很大程度上影响图分类或图重建的准确率。
技术实现要素:
4.本公开的实施例提出了图池化方法和装置、分类模型训练方法和装置、重建模型训练方法和装置、图结构数据分类方法和装置、图结构数据重建方法和装置、电子设备、计算机可读介质以及计算机程序产品。
5.第一方面,本公开的实施例提供了一种图池化方法,该方法包括:获取图结构数据,图结构数据包括:初始节点的特征以及各个初始节点之间的结构关系;对图结构数据中的各个初始节点的特征进行重要性评分,得到各个初始节点的分数向量;基于所有初始节点和各个初始节点的分数向量,确定待处理节点,待处理节点的数量小于或等于初始节点的数量;基于待处理节点的特征和待处理节点中各个待处理节点之间的结构关系,得到图结构数据的表征。
6.在一些实施例中,上述对图结构数据中的各个初始节点的特征进行重要性评分,得到各个初始节点的分数向量,包括:采用多维向量表征所有初始节点的特征;对各个初始节点的特征进行重要性评分,得到各个初始节点的多维的分数向量。
7.在一些实施例中,上述基于所有初始节点和各个初始节点的分数向量,确定待处理节点包括:从所有初始节点中随机丢弃设定数量的初始节点,得到剩余节点;基于剩余节点中的各个初始节点的分数向量,选取剩余节点中的至少一个初始节点,作为待处理节点。
8.在一些实施例中,上述方法还包括:对待处理节点的分数向量进行正则化处理,得到待处理节点的分数向量,正则化处理包括:求绝对值或求平方计算。
9.第二方面,本公开的实施例提供了一种分类模型训练方法,上述方法包括:获取训练数据集,训练数据集包括至少一个样本图结构数据,样本图结构数据包括:初始节点的特征以及各个初始节点之间的结构关系;获取预先建立的分类网络,分类网络包括:图池化模
块和分类模块,图池化模块用于对图结构数据执行如第一方面的图池化方法,得到图结构数据的表征,分类模块基于图结构数据的表征,得到图结构数据的分类结果;执行以下训练步骤:将从训练数据集中选取的样本图结构数据输入分类网络,计算得到分类网络的损失值;基于损失值和分类网络,得到分类模型。
10.第三方面,本公开的实施例提供了一种重建模型训练方法,上述方法包括:获取训练数据集,训练数据集包括至少一个样本图结构数据,样本图结构数据包括:初始节点的特征以及各个初始节点之间的结构关系;获取预先建立的重建网络,重建网络包括:图池化模块和重建模块,图池化模块用于对图结构数据执行如第一方面的图池化方法,得到图结构数据的表征,重建模块基于图结构数据的表征,得到图结构数据的重建数据;执行以下训练步骤:将从训练数据集中选取的样本图结构数据输入重建网络,计算得到重建网络的损失值;基于损失值和重建网络,得到重建模型。
11.第四方面,本公开的实施例提供了一种图结构数据分类方法,上述方法包括:获取待分类图结构数据,待分类图结构数据包括:初始节点的特征以及各个初始节点之间的结构关系;将待分类图结构数据输入采用如第二方面的方法生成的分类模型中,输出待分类图结构数据的分类结果。
12.第五方面,本公开的实施例提供了一种图结构数据重建方法,上述方法包括:获取待重建图结构数据,待重建图结构包括:初始节点的特征以及各个初始节点之间的结构关系;将待重建图结构数据输入采用如第三方面的方法生成的重建模型中,输出待重建图结构数据的重建数据。
13.第六方面,本公开的实施例提供了一种图池化装置,该装置包括:获取单元,被配置成获取图结构数据,图结构数据包括:初始节点的特征以及各个初始节点之间的结构关系;评分单元,被配置成对图结构数据中的各个初始节点的特征进行重要性评分,得到各个初始节点的分数向量;确定单元,被配置成基于所有初始节点和各个初始节点的分数向量,确定待处理节点,待处理节点的数量小于或等于初始节点的数量;得到单元,被配置成基于待处理节点的特征和待处理节点中各个待处理节点之间的结构关系,得到图结构数据的表征。
14.在一些实施例中,上述评分单元包括:表征模块,被配置成采用多维向量表征所有初始节点的特征;评分模块,被配置成对各个初始节点的特征进行重要性评分,得到各个初始节点的多维的分数向量。
15.在一些实施例中,上述确定单元包括:丢弃模块,被配置成从所有初始节点中随机丢弃设定数量的初始节点,得到剩余节点;选取模块,被配置成基于剩余节点中的各个初始节点的分数向量,选取剩余节点中的至少一个初始节点,作为待处理节点。
16.在一些实施例中,上述装置还包括:正则处理单元,被配置成对待处理节点的分数向量进行正则化处理,得到待处理节点的分数向量,正则化处理包括:求绝对值或求平方计算。
17.第七方面,本公开的实施例提供了一种分类模型训练装置,该装置包括:样本获取单元,被配置成获取训练数据集,训练数据集包括至少一个样本图结构数据,样本图结构数据包括:初始节点的特征以及各个初始节点之间的结构关系;分类网络单元,被配置成获取预先建立的分类网络,分类网络包括:图池化模块和分类模块,图池化模块用于对图结构数
据执行如第一方面的图池化方法,得到图结构数据的表征,分类模块基于图结构数据的表征,得到图结构数据的分类结果;计算单元,被配置成将从训练数据集中选取的样本图结构数据输入分类网络,计算得到分类网络的损失值;得到单元,被配置成基于损失值和分类网络,得到分类模型。
18.第八方面,本公开的实施例提供了一种重建模型训练装置,该装置包括:样本获取单元,被配置成获取训练数据集,训练数据集包括至少一个样本图结构数据,样本图结构数据包括:初始节点的特征以及各个初始节点之间的结构关系;重建网络单元,被配置成获取预先建立的重建网络,重建网络包括:图池化模块和重建模块,图池化模块用于对图结构数据执行如第一方面的图池化方法,得到图结构数据的表征,重建模块基于图结构数据的表征,得到图结构数据的重建数据;计算单元,被配置成将从训练数据集中选取的样本图结构数据输入重建网络,计算得到重建网络的损失值;得到单元,被配置成基于损失值和重建网络,得到重建模型。
19.第九方面,本公开的实施例提供了一种图结构数据分类装置,该装置包括:结构获取单元,被配置成获取待分类图结构数据,待分类图结构数据包括:初始节点的特征以及各个初始节点之间的结构关系;分类输出单元,被配置成将图结构输入采用如第七方面的装置生成的分类模型中,输出待分类图结构数据的分类结果。
20.第十方面,本公开的实施例提供了一种图结构数据重建装置,该装置包括:结构获取单元,被配置成获取待重建图结构数据,待重建图结构数据包括:初始节点的特征以及各个初始节点之间的结构关系;图像输出单元,被配置成将待重建图结构数据输入采用如第八方面的装置生成的重建模型中,输出待重建图结构数据的重建数据。
21.第十一方面,本公开的实施例提供了一种电子设备,该电子设备包括:一个或多个处理器;存储装置,其上存储有一个或多个程序;当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现如第一方面至第五方面中任一实现方式描述的方法。
22.第十二方面,本公开的实施例提供了一种计算机可读介质,其上存储有计算机程序,该程序被处理器执行时实现如第一方面至第五方面中任一实现方式描述的方法。
23.第十三方面,本公开的实施例提供了一种计算机程序产品,包括计算机程序,计算机程序在被处理器执行时实现如第一方面至第五方面任一实现方式描述的方法。
24.本公开的实施例提供的图池化方法和装置,首先获取图结构数据;其次,对图结构数据中的各个初始节点的特征进行重要性评分,得到各个初始节点的分数向量;再次,基于所有初始节点和各个初始节点的分数向量,确定待处理节点,待处理节点的数量小于或等于初始节点的数量;最后,基于待处理节点的特征和待处理节点中各个待处理节点之间的结构关系,得到图结构数据的表征。由此,可以采用神经网络模型对图结构数据中所有初始节点进行分数向量评分,使得获取的图结构数据的表征能够更加准确的表征图结构数据,提高了图池化的准确性,保证了图池化的大规模应用。
附图说明
25.通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本公开的其它特征、目的和优点将会变得更明显:
26.图1是本公开的一个实施例可以应用于其中的示例性系统架构图;
27.图2是根据本公开的图池化方法的一个实施例的流程图;
28.图3a-3d是根据本公开的图池化方法中节点变化示意图;
29.图4是根据本公开的分类模型训练方法的一个实施例的流程图;
30.图5是根据本公开的重建模型训练方法的一个实施例的流程图;
31.图6是根据本公开的图结构数据分类方法的一个实施例的流程图;
32.图7是根据本公开的图结构数据重建方法的一个实施例的流程图;
33.图8是根据本公开的图池化装置的实施例的结构示意图;
34.图9是根据本公开的分类模型训练装置的实施例的结构示意图;
35.图10是根据本公开的重建模型训练装置的实施例的结构示意图;
36.图11是根据本公开的图结构数据分类装置的实施例的结构示意图;
37.图12是根据本公开的图结构数据重建装置的实施例的结构示意图;
38.图13是适于用来实现本公开的实施例的电子设备的结构示意图。
具体实施方式
39.下面结合附图和实施例对本公开作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
40.需要说明的是,在不冲突的情况下,本公开中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本公开。
41.在计算机科学中,一个图结构数据就是一些节点的集合,这些节点通过一系列边结对(连接)。节点用圆圈表示,边是这些圆圈之间的连线。节点之间通过边连接。
42.在对生物分子结构进行性质分类时,可以对分子的性质分析抽象为图分类任务,首先对生物分子进行抽象得到生物分子的图结构数据,其次,对生物分子的图结构数据采用图池化技术,得到图结构数据的表征,从而基于图结构数据的表征得到生物分子性质类型。
43.在零售领域,用户进行商品信息检索时,可以首先将商品的各种属性抽象为图结构数据,其次,对属性的图结构数据采用图池化技术,得到商品的完整的图结构数据的表征,基于商品的图结构数据的表征,检索商品。
44.传统的图池化技术可以大致分为两类:
45.一、全局性图池化。这类图池化忽略图的网络结构,对所有的节点进行平均,求最大或者求和等操作从而获得图表征。
46.二、层次性图池化。这类图池化会综合考虑图节点特征和节点的结构关系,逐步的粗化图,直到获取最终的图表征。其中,层次性图池化技术中又可以大致分成:
47.(1)节点聚类图池化。这类图池化将多个相似的节点聚类生成一个新的节点来表征原有的多个节点,从而逐步粗化图,直到获得图表征。
48.(2)节点丢弃图池化。这类图池化通过模型计算节点的重要性评分,继而根据评分保留重要的节点和他们之间的连边,丢弃不重要的节点,从而对图进行粗化,直到获得图表征。
49.其中,节点丢弃图池化时间复杂度和空间复杂度较低,在真实的大规模网络中有
更好的应用前景。但是传统技术中的节点丢弃图池化,缺乏对图中节点多样性的捕捉,导致最终的特征中存在冗余的节点特征信息,缺少部分重要特征信息。
50.本公开提供的图池化方法相对传统的节点丢弃图池化,提供了一种可以帮助网络捕捉节点特征多样性的图池化方法,使得模型获取的图结构数据的表征能够更加全面准确的表征原始图结构数据,提升图分类或图重建任务的准确率。本公开提供的图池化方法可以和很多节点丢弃的图池化模型结合,对这些模型进行改进和提升。
51.图1示出了可以应用本公开的分类模型训练方法、重建模型训练方法或图池化方法的示例性系统架构100。
52.如图1所示,系统架构100可以包括终端101、102,网络103、数据库服务器104和服务器105。网络103用于在终端101、102,数据库服务器104与服务器105之间提供通信链路的介质。网络103可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
53.用户110可以使用终端101、102通过网络103与服务器105进行交互,以接收或发送消息等。终端101、102上可以安装有各种客户端应用,例如模型训练类应用、图结构数据识别应用和即时通讯工具等。
54.这里的终端101、102可以是硬件,也可以是软件。当终端101、102为硬件时,可以是具有显示屏的各种电子设备,包括但不限于智能手机、平板电脑、电子书阅读器、膝上型便携计算机和台式计算机等等。当终端101、102为软件时,可以安装在上述所列举的电子设备中。其可以实现成多个软件或软件模块(例如用来提供分布式服务),也可以实现成单个软件或软件模块。在此不做具体限定。
55.当终端101、102为硬件时,其上还可以安装有图结构数据采集设备。图结构数据采集设备可以是各种能实现图结构数据采集功能的设备,如摄像头、传感器等等。用户110可以利用终端101、102上的图结构数据采集设备,来采集图结构数据。
56.数据库服务器104可以是提供各种服务的数据库服务器。例如数据库服务器中可以存储有训练数据集或者待进行池化处理的图结构数据。训练数据集中包含有大量的样本。其中,样本可以包括至少一个样本图结构数据。这样,用户110也可以通过终端101、102,从数据库服务器104所存储的样本集中选取样本。
57.服务器105也可以是提供各种服务的服务器,例如对终端101、102上显示的各种应用提供支持的后台服务器。后台服务器可以利用终端101、102发送的样本集中的样本,对初始模型进行训练,并可以将训练结果(如生成的分类模型)发送给终端101、102。这样,用户可以应用生成的分类模型进行节点分类。后台服务器还可以对终端101、102或数据库服务器104中待进行池化的图结构数据进行池化处理,得到待进行池化的图结构数据的表征。
58.这里的数据库服务器104和服务器105同样可以是硬件,也可以是软件。当它们为硬件时,可以实现成多个服务器组成的分布式服务器集群,也可以实现成单个服务器。当它们为软件时,可以实现成多个软件或软件模块(例如用来提供分布式服务),也可以实现成单个软件或软件模块。在此不做具体限定。
59.需要说明的是,本公开的实施例所提供的分类模型训练方法、重建模型训练方法、图结构数据分类方法、图结构数据重建方法或图池化方法一般由服务器105执行。相应地,分类模型训练装置、重建模型训练装置、图结构数据分类装置、图结构数据重建装置或图池化装置一般也设置于服务器105中。
60.需要指出的是,在服务器105可以实现数据库服务器104的相关功能的情况下,系统架构100中可以不设置数据库服务器104。
61.应该理解,图1中的终端、网络、数据库服务器和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端、网络、数据库服务器和服务器。
62.如图2,示出了根据本公开的图池化方法的一个实施例的流程200,该图池化方法包括以下步骤:
63.步骤201,获取图结构数据。
64.本实施例中图结构数据包括初始节点以及所有初始节点中各个初始节点之间的结构关系,而各个初始节点之间的结构关系也称为连边集合,初始节点可以是图结构数据任何可排列的对象,初始节点的特征也是对象的特征,初始节点的特征可以是由图卷积神经网络提取图中的对象的信息得到,初始节点的特征可以用于表征图结构数据中对象的位置、类型、大小等信息。
65.需要说明的是,本实施例中的初始节点、待处理节点、剩余节点均是图结构数据的节点,用于表示图结构数据中的对象;初始节点之间的结构关系是各个初始节点之间的位置、依赖等信息。
66.如图3a所示,初始节点包括:点a~点g,而点a~点g之中的连接线表征了各个点之间的结构关系,所有的连接线组合得到初始节点的连边集合。
67.首先给定一个图:g=v,e。其中,g代表图,v代表初始节点集合,vi代表初始节点i,i∈1,2,...,n,n为图中初始节点总数,e代表连边集合,图的邻接矩阵定义为a。
68.步骤202,对图结构数据中的各个初始节点的特征进行重要性评分,得到各个初始节点的分数向量。
69.本实施例中,针对图结构数据中对象的重要性,可以采用评分函数对各个初始节点的特征进行重要性评分,从而确定各个初始节点在初始节点集合中的重要性。例如,s
(l)
为模型中score函数生成的所有节点评分,s
(l)
=score(x
(l)
,a
(l)
),其中score()表示评分函数,x(l)表示初始节点的特征。
70.传统图池化方法中一般采用标量表示图结构数据中每个节点的重要性,然而,由于图结构数据的复杂性,简单的标量难以从不同视角评估节点的重要性。本实施例中,初始节点的分数向量为初始节点的不同视角分数的表征,如图3b所示,(0.4,0.3)是点a的分数向量,(0.7,0.2)是点b的分数向量,(0.9,0.6)是点c的分数向量,(0.5,0.4)是点d的分数向量,(-0.2,-0.1)是点e的分数向量,(-0.6,-0.3)是点f的分数向量,(-0.8,-0.2)是点g的分数向量,通过分数向量的形式可以在不同视角确定初始节点对于初始节点集合的重要性,将每个初始节点的重要性得分从标量改变为向量,可以从多视角评估节点的重要性。
71.进一步地,在神经网络模型中运行图池化方法时,可以将原有模型中生成的一维评分拓展到多维评分,将每个初始节点的重要性得分从标量更改为多维向量,可以从多视角评估节点的重要性。
72.在本实施例的一些可选实现方式中,对各个初始节点的特征进行重要性评分,得到各个初始节点的分数向量,包括:采用多维向量表征所有初始节点的特征;对各个初始节点的特征进行重要性评分,得到各个初始节点的多维的分数向量。
73.本实施例中,各个初始节点的多维的分数向量可以采用一个多维的评分矩阵表
示,评分矩阵中每一行代表初始节点的重要性评分向量。
74.本可选实现方式提供的方法,通过对所有初始节点的特征进行多维向量表示,从而在评分函数对各个初始节点的特征进行评分时,也可以在多维度对初始节点的特征的分数进行表征,保证了从多视角评估节点的重要性。
75.步骤203,基于所有初始节点和各个初始节点的分数向量,确定待处理节点。
76.其中,待处理节点的数量小于或等于初始节点的数量。
77.本实施例中,待处理节点是从所有初始节点中选取出的节点,待处理节点可以是图池化模型认为最大化表征图结构数据的节点。
78.上述基于所有初始节点和各个初始节点的分数向量,确定待处理节点包括:按初始节点中各个初始节点的分数向量的大小,对初始节点中的初始节点进行升序排序;选取分数向量为前设定位的初始节点,作为待处理节点。其中,前设定位可以基于模型业务需求进行设定,例如,前设定位为20位。如图3c所示,点a~点d是从点a~点g所有的初始节点中基于分数向量选择出来的待处理点。
79.在本实施例的一些可选实现方式中,上述基于所有初始节点和各个初始节点的分数向量,确定待处理节点包括:从所有初始节点中随机丢弃设定数量的初始节点,得到剩余节点;基于剩余节点中的各个初始节点的分数向量,选取剩余节点中的至少一个初始节点,作为待处理节点。
80.本可选实现方式中,上述基于剩余节点中的各个初始节点的分数向量,选取剩余节点中的至少一个初始节点,作为待处理节点,包括:按剩余节点中各个初始节点的分数向量的大小,对剩余节点中的初始节点进行排序;选取分数向量为前设定位的初始节点,作为待处理节点。
81.本可选实现方式中,设定数量可以基于模型业务(例如图结构数据分类、图结构数据重建)需求进行设定,例如,设定数量为1000个。
82.本可选实现方式中,在确定待处理节点之前,随机丢弃设定数量的初始节点,相应地,该丢弃的设定数量的初始节点中各个初始节点之间的结构关系也相应的被丢弃。
83.传统图池化方法中,当神经网络模型开始处理图结构数据之后,图结构数据中直接连接的初始节点往往会包含很多相似的信息,神经网络模型对附近的初始节点会产生相似的分数。在这种情况下,神经网络模型可能会陷入某些重要的局部结构中,导致神经网络模型选择冗余的初始节点,忽略其他子结构中的重要初始节点,从而丢失部分结构信息。
84.本可选实现方式提供的图池化方法,通过随机丢弃设定数量的初始节点,在神经网络模型训练过程中随机删除一定比例的节点,使神经网络模型不再陷于某个局部子结构,保证了图池化的有效性。
85.步骤204,基于待处理节点的特征和待处理节点中各个待处理节点之间的结构关系,得到图结构数据的表征。
86.本实施例中,图结构数据的表征是图池化方法运行于其上的执行主体(例如图池化模型)确定的图结构数据的特征,通过图结构数据的表征可以在图池化模型中确定图结构数据中对象的总体结构。上述执行主体可以采用图粗化函数对待处理节点的特征和待处理节点中各个待处理节点之间的结构关系进行处理,得到图结构数据的表征。进一步地,图结构数据的表征在图池化模型中可以以模型可识别的编码的形式存在。
87.如图3d所示,点a~点d是待处理点,基于点a~点d的特征和点a~点d之间的结构关系,可以完全粗化的表征出图结构数据。
88.本公开的实施例提供的图池化方法,首先获取图结构数据;其次,对图结构数据中的各个初始节点的特征进行重要性评分,得到各个初始节点的分数向量;再次,基于所有初始节点和各个初始节点的分数向量,确定待处理节点,待处理节点的数量小于或等于初始节点的数量;最后,基于待处理节点的特征和待处理节点中各个待处理节点之间的结构关系,得到图结构数据的表征。由此,可以采用神经网络模型对图结构数据中所有初始节点进行分数向量评分,使得获取的图结构数据的表征能够更加准确的表征图结构数据,提高了图池化的准确性,保证了图池化的大规模应用。
89.在本公开的另一个实施例中,本公开图池化方法还可以包括:对待处理节点的分数向量进行正则化处理,得到待处理节点的分数向量,正则化处理包括:求绝对值或求平方计算。
90.传统技术中,图池化模型一般使用双曲正切函数tanh()作为激活函数,图池化模型的生成评分在-1到1之间,所以传统的方法倾向于选择相似的初始节点,而不是有代表性的初始节点。
91.本实施例提供的图池化方法,通过对待处理节点进行正则化处理可以突出图池化模型原始空间中分数极不相同的节点,鼓励图池化模型捕获具有不同特征的节点,使不相似的初始节点的特征会得到更多的信息增益,从而有助于提升图结构数据分类或图结构数据重建的准确率。
92.如图4,示出了根据本公开的分类模型训练方法的一个实施例的流程400,该分类模型训练方法包括以下步骤:
93.步骤401,获取训练数据集。
94.在本实施例中,分类模型训练方法的执行主体(例如图1所示的服务器)可以通过多种方式来获取训练数据集,本实施例中训练数据集包括至少一个样本图结构数据,样本图结构数据包括:初始节点的特征以及各个初始节点之间的结构关系,通过对训练数据集中样本图结构数据的选取、计算等方式可以得到适用于分类模型训练的样本。例如,执行主体可以通过有线连接方式或无线连接方式,从数据库服务器(例如图1所示的数据库服务器104)中获取存储于其中的训练数据集。再例如,用户可以通过终端(例如图1所示的终端101、102)来收集训练数据集。
95.在这里,各个样本图结构数据中均包括图结构数据的标注信息,标注信息用于分类模型训练时真值识别。
96.步骤402,获取预先建立的分类网络。
97.在本实施例中,上述实施例提供的图池化方法可以应用于图结构数据分类场景中,其中,图结构数据分类是对图结构数据中的目标进行类型或置信度识别,得到目标属于图结构数据的概率。其中,目标可以是表征图结构数据的对象、类型、型号、结构等信息。
98.在分类场景应用图池化方法,可以在得到图结构数据的表征的基础上,对各个节点进行类型划分等,得到节点的类型或者节点属于图结构数据中目标的概率。
99.本实施例中,分类网络包括:图池化模块和分类模块,图池化模块用于对图结构数据执行本实施例的图池化方法,得到图结构数据的表征,分类模块基于图结构数据的表征,
得到图结构数据的分类结果。图池化模块的输出与分类模块的输入连接,分类模块的输出作为分类网络的输出。
100.本实施例中,将图结构数据输入图池化模块,得到图结构数据的表征;将得到的图结构数据的表征输入分类模块,得到对图结构数据的分类结果。其中,的分类结果可以包括:节点位置、节点属于预设目标的概率、置信度等。
101.本实施例中,图池化模块可以采用神经网络,分类模块可以是至少一层全连接层,图池化模块和分类模块组成分类网络,分类网络每进行一次迭代训练,图池化模块对图结构数据执行一次图池化方法,得到当前迭代训练下的图结构数据的表征。
102.步骤403,将从训练数据集中选取的样本图结构数据输入分类网络,计算得到分类网络的损失值。
103.在本实施例中,执行主体基于从步骤401中获取的训练数据集,从训练数据集选取样本图结构数据,选取的样本图结构数据作为分类网络每次迭代训练的样本,并基于选取的样本图结构数据执行步骤403至步骤404的训练步骤。
104.本实施例中,在每次迭代训练中,基于图池化模块的损失值和分类模块的损失值,计算得到分类网络的损失值,而图池化模块的损失值和分类模块的损失值均可以通过选取的样本图结构数据和两者各自的损失函数计算得到。
105.本实施例中,可以将图池化模块的损失值和分类模块的损失值相加,得到分类网络的损失值;或者将图池化模块的损失值乘以第一预设系数加上分类模块的损失值乘以第二预设系数,得到分类网络的损失值。
106.步骤404,基于损失值和分类网络,得到分类模型。
107.本实施例中,在进行多次迭代训练之后,通过分类网络的损失值检测分类网络是否满足训练完成条件,若分类网络满足训练完成条件,则将分类网络作为分类模型。
108.在本实施例中,训练完成条件包括以下至少一项:训练迭代次数达到预定迭代阈值(通过分类网络的损失值预先估计得到的阈值),分类网络的损失值小于预定损失值阈值。例如,训练迭代达到5千次。损失值小于0.05。设置训练完成条件可以加快模型收敛速度。
109.可选地,若分类网络不满足训练完成条件,则调整分类网络中的相关参数使得分类网络的损失值收敛,基于调整后的分类网络和调整后的分类网络的损失值,继续执行步骤403-404。
110.本可选实现方式中,在每次迭代训练之后,若分类网络不满足训练完成通过调整分类网络的相关参数,可以快速地得到分类模型,保证了模型的收敛效果。
111.本公开的实施例提供的分类模型训练方法,采用本公开的图池化方法,从而保证了对图结构数据进行有效表征,提升了分类模型的性能,提高了分类模型的分类的准确性。
112.如图5,示出了根据本公开的重建模型训练方法的一个实施例的流程500,该重建模型训练方法包括以下步骤:
113.步骤501,获取训练数据集。
114.在本实施例中,重建模型训练方法的执行主体(例如图1所示的服务器)可以通过多种方式来获取训练数据集,本实施例中训练数据集包括至少一个样本图结构数据,样本图结构数据包括:初始节点的特征以及各个初始节点之间的结构关系,通过对训练数据集
中样本图结构数据的选取、计算等方式可以得到适用于重建模型训练的样本。例如,执行主体可以通过有线连接方式或无线连接方式,从数据库服务器(例如图1所示的数据库服务器104)中获取存储于其中的训练数据集。再例如,用户可以通过终端(例如图1所示的终端101、102)来收集训练数据集。
115.在这里,各个样本图结构数据中均包括图结构数据的标注信息,标注信息用于重建模型训练时真值识别。
116.步骤502,获取预先建立的重建网络。
117.在本实施例中,上述实施例提供的图池化方法可以应用于图结构数据重建场景中,其中,图结构数据重建是模型在得到图结构数据的表征之后,基于得到图结构数据的表征,还原图结构数据的过程。
118.在重建场景应用图池化方法,可以在得到图结构数据的表征的基础上,对各个节点进行图结构数据信息还原,得到节点对应的图结构数据信息。
119.本实施例中,重建网络包括:图池化模块和重建模块,图池化模块用于对图结构数据执行本实施例的图池化方法,得到图结构数据的表征,重建模块基于图结构数据的表征,得到图结构数据的重建数据。图池化模块的输出与重建模块的输入连接,重建模块的输出作为重建网络的输出。
120.本实施例中,将图结构数据输入图池化模块,得到图结构数据的表征;将得到的图结构数据的表征输入重建模块,得到对图结构数据中待处理节点进行重建后的重建数据。本实施例中,重建数据是对图结构数据进行重建后的数据,可以包括:重建节点和各个重建节点之间的结构关系。
121.本实施例中,图池化模块可以采用神经网络,图池化模块得到的图结构数据的表征相当于对图结构数据进行编码之后的结果,而重建模块可以是与图结构数据的表征对应的解码器,图池化模块和重建模块组成重建网络,重建网络每进行一次迭代训练,图池化模块对图结构数据执行一次图池化方法,得到当前迭代训练下的图结构数据的表征。
122.步骤503,将从训练数据集中选取的样本图结构数据输入重建网络,计算得到重建网络的损失值。
123.在本实施例中,执行主体基于从步骤501中获取的训练数据集,从训练数据集选取样本图结构数据,选取的样本图结构数据作为重建网络每次迭代训练的样本,并基于选取的样本图结构数据的图结构执行步骤503至步骤504的训练步骤。
124.本实施例中,在每次迭代训练中,基于图池化模块的损失值和重建模块的损失值,计算得到重建网络的损失值,而图池化模块的损失值和重建模块的损失值均可以通过选取的样本图结构数据的图结构和两者各自的损失函数计算得到。
125.本实施例中,可以将图池化模块的损失值和重建模块的损失值相加,得到重建网络的损失值;或者将图池化模块的损失值乘以第三预设系数加上重建模块的损失值乘以第四预设系数,得到重建网络的损失值。
126.步骤504,基于损失值和重建网络,得到重建模型。
127.本实施例中,在进行多次迭代训练之后,通过重建网络的损失值检测重建网络是否满足训练完成条件,若重建网络满足训练完成条件,则将重建网络作为重建模型。
128.在本实施例中,训练完成条件包括以下至少一项:训练迭代次数达到预定迭代阈
值(通过重建网络的损失值预先估计得到的阈值),重建网络的损失值小于预定损失值阈值。例如,训练迭代达到3千次。损失值小于0.03。设置训练完成条件可以加快模型收敛速度。
129.可选地,若重建网络不满足训练完成条件,则调整重建网络中的相关参数使得重建网络的损失值收敛,基于调整后的重建网络和调整后的重建网络的损失值,继续执行步骤503-504。
130.本可选实现方式中,在每次迭代训练之后,若重建网络不满足训练完成通过调整重建网络的相关参数,可以快速地得到重建模型,保证了模型的收敛效果。
131.本公开的实施例提供的重建模型训练方法,采用本公开的图池化方法,从而保证了对图结构数据进行有效表征,提升了重建模型的性能,提高了重建模型得到重建图结构数据的准确性。
132.请参见图6,其示出了本公开提供的图结构数据分类方法的一个实施例的流程600。该图结构数据分类方法可以包括以下步骤:
133.步骤601,获取待分类图结构数据。
134.在本实施例中,图结构数据分类方法的执行主体(例如图1所示的服务器105)可以通过多种方式来获取待分类图结构数据的图结构。例如,执行主体可以通过有线连接方式或无线连接方式,从数据库服务器(例如图1所示的数据库服务器104)中获取存储于其中的待分类图结构数据。再例如,执行主体也可以接收终端(例如图1所示的终端101、102)或其他设备采集的待分类图结构数据。
135.在本实施例中,待分类图结构数据是需要分类的图结构数据,待分类图结构数据包括:初始节点的特征以及各个初始节点之间的结构关系,待分类图结构数据的图结构可以通过传统的方式得到的,例如需要对一个未知的生物分子结构进行性质(例如有毒或者无毒)归类,对该分子结构的性质预测任务可以抽象为图分类任务,在该分子结构的图上应用图卷积神经网络获取图中每个初始节点的特征以及各个初始节点之间结构关系。
136.步骤602,将待分类图结构数据输入采用分类模型训练方法生成的分类模型中,输出待分类图结构数据的分类结果。
137.在本实施例中,执行主体可以将步骤601中获取的待分类图结构数据输入分类模型中,从而输出对待分类图结构数据的分类结果。步骤401-404训练生成的图结构数据分类模型可以得到待分类图结构数据的分类结果。
138.例如,分类结果可以包括待分类图结构数据的类型、性质、风格等。分类结果还可以包括待分类图结构数据中目标的身份、种类、置信度等信息。
139.在本实施例中,分类模型可以是采用如上述图4实施例所描述的方法而生成的。具体生成过程可以参见图4实施例的相关描述,在此不再赘述。
140.需要说明的是,本实施例图结构数据分类方法可以用于测试上述各实施例所生成的分类模型。进而根据转换结果可以不断地优化分类模型。该方法也可以是上述各实施例所生成的分类模型的实际应用方法。采用上述各实施例所生成的分类模型,来进行图结构数据分类,有助于提高图结构数据分类的性能。
141.本公开的实施例提供的图结构数据分类方法,通过采用分类模型训练方法生成的分类模型,可以有效地对图结构数据进行分类,保证了图结构数据分类效果。
142.请参见图7,其示出了本公开提供的图结构数据重建方法的一个实施例的流程700。该图结构数据重建方法可以包括以下步骤:
143.步骤701,获取待重建图结构数据。
144.在本实施例中,图结构数据重建方法的执行主体(例如图1所示的服务器105)可以通过多种方式来获取待重建图结构数据。例如,执行主体可以通过有线连接方式或无线连接方式,从数据库服务器(例如图1所示的数据库服务器104)中获取存储于其中的待重建图结构数据。再例如,执行主体也可以接收终端(例如图1所示的终端101、102)或其他设备采集的待重建图结构数据。
145.在本实施例中,待重建图结构数据是一种未知的图结构数据,通过该未知图结构数据可以对待未知图结构数据进行重建,得到图结构数据真实表示。待重建图结构数据可以是通过传统的方式得到的,例如通过卷积神经网络获取图中每个初始节点的特征以及各个初始节点之间结构关系。
146.步骤702,将待重建图结构数据输入采用重建模型训练方法生成的重建模型中,输出待重建图结构数据的重建数据。
147.在本实施例中,执行主体可以将步骤701中获取的待重建图结构数据输入重建模型中,从而输出对待重建图结构数据的重建数据。步骤501-504训练生成的重建模型可以得到待重建图结构数据的重建数据。
148.本实施例中,待重建图结构数据的重建数据是对未知图结构数据的进行真实表征的图结构数据,通过重建后的图结构数据可以用于多种图结构数据识别、图结构数据分类场景。
149.在本实施例中,重建模型可以是采用如上述图5实施例所描述的方法而生成的。具体生成过程可以参见图5实施例的相关描述,在此不再赘述。
150.需要说明的是,本实施例图结构数据重建方法可以用于测试上述各实施例所生成的重建模型。进而根据转换结果可以不断地优化重建模型。该方法也可以是上述各实施例所生成的重建模型的实际应用方法。采用上述各实施例所生成的重建模型,来进行图结构数据重建,有助于提高图结构数据重建的性能。
151.本公开的实施例提供的图结构数据重建方法,通过采用重建模型训练方法生成的重建模型,可以有效地对图结构数据的图结构进行图结构数据还原,保证了图结构数据重建的效果。
152.进一步参考图8,作为对上述各图所示方法的实现,本公开提供了图池化装置的一个实施例,该装置实施例与图2所示的方法实施例相对应,该装置具体可以应用于各种电子设备中。
153.如图8所示,本公开的实施例提供了一种图池化装置800,该装置800包括:获取单元801、评分单元802、确定单元803、得到单元804。其中,上述获取单元801,可以被配置成获取图结构数据,图结构数据包括:初始节点的特征以及各个初始节点之间的结构关系。上述评分单元802,可以被配置成对图结构数据中的各个初始节点的特征进行重要性评分,得到各个初始节点的分数向量。上述确定单元803,可以被配置成基于所有初始节点和各个初始节点的分数向量,确定待处理节点,待处理节点的数量小于或等于初始节点的数量。上述得到单元804,可以被配置成基于待处理节点的特征和待处理节点中各个待处理节点之间的
结构关系,得到图结构数据的表征。
154.在本实施例中,图池化装置800中,获取单元801、评分单元802、确定单元803、得到单元804的具体处理及其所带来的技术效果可分别参考图2对应实施例中的步骤201、步骤202、步骤203、步骤204。
155.在一些实施例中,上述评分单元802包括:表征模块(图中未示出),评分模块(图中未示出)。其中,上述表征模块,可以被配置成采用多维向量表征所有初始节点的特征。上述评分模块,可以被配置成对各个初始节点的特征进行重要性评分,得到各个初始节点的多维的分数向量。
156.在一些实施例中,上述确定单元803包括:丢弃模块(图中未示出)、选取模块(图中未示出)。其中,上述丢弃模块,可以被配置成从所有初始节点中随机丢弃设定数量的初始节点,得到剩余节点。上述选取模块,可以被配置成基于剩余节点中的各个初始节点的分数向量,选取剩余节点中的至少一个初始节点,作为待处理节点。
157.在一些实施例中,上述装置800还包括:正则处理单元(图中未示出)。其中,上述正则处理单元,可以被配置成对待处理节点的分数向量进行正则化处理,得到待处理节点的分数向量,正则化处理包括:求绝对值或求平方计算。
158.本公开的实施例提供的图池化装置,首先获取单元801获取图结构数据;其次,评分单元802对各个初始节点的特征进行重要性评分,得到各个初始节点的分数向量;再次,确定单元803基于所有初始节点和各个初始节点的分数向量,确定待处理节点,待处理节点的数量小于或等于初始节点的数量;最后,得到单元804基于待处理节点的特征和待处理节点中各个待处理节点之间的结构关系,得到图结构数据的表征。由此,可以采用神经网络模型对图结构数据中所有初始节点进行分数向量评分,使得获取的图结构数据的表征能够更加准确的表征图结构数据,提高了图池化的准确性,保证了图池化的大规模应用。
159.继续参见图9,作为对上述图4所示方法的实现,本技术提供了一种分类模型训练装置,该装置实施例与图4所示的方法实施例例相对应,该装置具体可以应用于各种电子设备中。
160.如图9所示,本实施例的分类模型训练装置900可以包括:样本获取单元901、分类网络单元902、计算单元903、得到单元904。其中,上述样本获取单元,可以被配置成获取训练数据集,训练数据集包括至少一个样本图结构数据,样本图结构数据包括:初始节点的特征以及各个初始节点之间的结构关系。上述分类网络单元902,可以被配置成获取预先建立的分类网络,分类网络包括:图池化模块和分类模块,图池化模块用于对图结构数据执行本实施例的图池化方法,得到图结构数据的表征,分类模块基于图结构数据的表征,得到图结构数据的分类结果。上述计算单元903,可以被配置成将从训练数据集中选取的样本图结构数据输入分类网络,计算得到分类网络的损失值。上述得到单元904,可以被配置成基于损失值和分类网络,得到分类模型。
161.在本实施例中,图池化装置900中,样本获取单元901、分类网络单元902、计算单元903、得到单元904的具体处理及其所带来的技术效果可分别参考图4对应实施例中的步骤401、步骤402、步骤403、步骤404。
162.继续参见图10,作为对上述图5所示方法的实现,本技术提供了一种重建模型训练装置,该装置实施例与图5所示的方法实施例例相对应,该装置具体可以应用于各种电子设
备中。
163.如图10所示,本实施例的重建模型训练装置1000可以包括:样本获取单元1001、重建网络单元1002、计算单元1003、得到单元1004。其中,上述样本获取单元,可以被配置成获取训练数据集,训练数据集包括至少一个样本图结构数据,样本图结构数据包括:初始节点的特征以及各个初始节点之间的结构关系。上述重建网络单元1002,可以被配置成获取预先建立的重建网络,重建网络包括:图池化模块和重建模块,图池化模块用于对图结构数据执行本实施例的图池化方法,得到图结构数据的表征,重建模块基于图结构数据的表征,得到图结构数据的重建数据。上述计算单元1003,可以被配置成将从训练数据集中选取的样本图结构数据输入重建网络,计算得到重建网络的损失值。上述得到单元1004,可以被配置成基于损失值和重建网络,得到重建模型。
164.在本实施例中,图池化装置1000中,样本获取单元1001、重建网络单元1002、计算单元1003、得到单元1004的具体处理及其所带来的技术效果可分别参考图5对应实施例中的步骤501、步骤502、步骤503、步骤504。
165.继续参见图11,作为对上述图9所示方法的实现,本技术提供了一种图结构数据分类装置的一个实施例。该装置实施例与图9所示的方法实施例相对应,该装置具体可以应用于各种电子设备中。
166.如图11所示,本实施例的图结构数据分类装置1100可以包括:结构获取单元1101,被配置成获取待分类图结构数据,待分类图结构数据包括:初始节点的特征以及各个初始节点之间的结构关系。分类输出单元1102,被配置成将图结构输入如上述图9所示的分类模型训练装置生成的分类模型中,输出待分类图结构数据的分类结果。
167.可以理解的是,该装置1100中记载的诸单元与参考图9描述的方法中的各个步骤相对应。由此,上文针对方法描述的操作、特征以及产生的有益效果同样适用于装置1100及其中包含的单元,在此不再赘述。
168.继续参见图12,作为对上述图10所示方法的实现,本技术提供了一种图结构数据重建装置的一个实施例。该装置实施例与图10所示的方法实施例相对应,该装置具体可以应用于各种电子设备中。
169.如图12所示,本实施例的图结构数据重建装置1200可以包括:结构获取单元1201,被配置成获取待重建图结构数据,待重建图结构数据包括:初始节点的特征以及各个初始节点之间的结构关系。图像输出单元1202,被配置成将图结构输入如上述图10所示的重建模型训练装置生成的重建模型中,输出待重建图结构数据的重建数据。
170.可以理解的是,该装置1200中记载的诸单元与参考图10描述的方法中的各个步骤相对应。由此,上文针对方法描述的操作、特征以及产生的有益效果同样适用于装置1200及其中包含的单元,在此不再赘述。
171.需要说明的是,本公开的实施例中所涉及的图结构数据、个人信息等数据均已通过用户自愿授权,个人信息数据的获取、存储、处理和传输等均符合相关法律法规的要求。
172.下面参考图13,其示出了适于用来实现本公开的实施例的电子设备1300的结构示意图。
173.如图13所示,电子设备1300可以包括处理装置(例如中央处理器、图形处理器等)1301,其可以根据存储在只读存储器(rom)1302中的程序或者从存储装置1308加载到随机
访问存储器(ram)1303中的程序而执行各种适当的动作和处理。在ram 1303中,还存储有电子设备1300操作所需的各种程序和数据。处理装置1301、rom 1302以及ram 1303通过总线1304彼此相连。输入/输出(i/o)接口1305也连接至总线1304。
174.通常,以下装置可以连接至i/o接口1305:包括例如触摸屏、触摸板、键盘、鼠标、等的输入装置1306;包括例如液晶显示器(lcd,liquid crystal display)、扬声器、振动器等的输出装置1307;包括例如磁带、硬盘等的存储装置1308;以及通信装置1309。通信装置1309可以允许电子设备1300与其他设备进行无线或有线通信以交换数据。虽然图13示出了具有各种装置的电子设备1300,但是应理解的是,并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。图13中示出的每个方框可以代表一个装置,也可以根据需要代表多个装置。
175.特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信装置1309从网络上被下载和安装,或者从存储装置1308被安装,或者从rom 1302被安装。在该计算机程序被处理装置1301执行时,执行本公开的实施例的方法中限定的上述功能。
176.需要说明的是,本公开的实施例的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑磁盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开的实施例中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开的实施例中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:电线、光缆、rf(radio frequency,射频)等等,或者上述的任意合适的组合。
177.上述计算机可读介质可以是上述服务器中所包含的;也可以是单独存在,而未装配入该服务器中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该服务器执行时,使得该服务器:获取图结构数据,图结构数据包括:初始节点的特征以及各个初始节点之间的结构关系;对图结构数据中的各个初始节点的特征进行重要性评分,得到各个初始节点的分数向量;基于所有初始节点和各个初始节点的分数向量,确定待处理节点,待处理节点的数量小于或等于初始节点的数量;基于待处理节点的特征和待处理节点中各个待处理节点之间的结构关系,得到图结构数据的表征。
178.可以以一种或多种程序设计语言或其组合来编写用于执行本公开的实施例的操
作的计算机程序代码,程序设计语言包括面向对象的程序设计语言—诸如java、smalltalk、c++,还包括常规的过程式程序设计语言—诸如“c”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(lan)或广域网(wan)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
179.附图中的流程图和框图,图示了按照本公开的各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
180.描述于本公开的实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中,例如,可以描述为:一种处理器,包括获取单元、评分单元、确定单元、得到单元。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定,例如,获取单元还可以被描述为“被配置成获取图结构数据,图结构数据包括:初始节点的特征以及各个初始节点之间的结构关系”的单元。
181.以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本公开的实施例中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开的实施例中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
技术特征:
1.一种图池化方法,所述方法包括:获取图结构数据,所述图结构数据包括:初始节点的特征以及各个初始节点之间的结构关系;对所述图结构数据中的各个初始节点的特征进行重要性评分,得到各个初始节点的分数向量;基于所有初始节点和各个初始节点的分数向量,确定待处理节点,所述待处理节点的数量小于或等于初始节点的数量;基于所述待处理节点的特征和所述待处理节点中各个待处理节点之间的结构关系,得到所述图结构数据的表征。2.根据权利要求1所述的方法,其中,所述对所述图结构数据中的各个初始节点的特征进行重要性评分,得到各个初始节点的分数向量,包括:采用多维向量表征所有初始节点的特征;对各个初始节点的特征进行重要性评分,得到各个初始节点的多维的分数向量。3.根据权利要求1所述的方法,其中,所述基于所有初始节点和各个初始节点的分数向量,确定待处理节点包括:从所有初始节点中随机丢弃设定数量的初始节点,得到剩余节点;基于所述剩余节点中的各个初始节点的分数向量,选取所述剩余节点中的至少一个初始节点,作为待处理节点。4.根据权利要求1-3之一所述的方法,所述方法还包括:对所述待处理节点的分数向量进行正则化处理,得到所述待处理节点的分数向量,所述正则化处理包括:求绝对值或求平方计算。5.一种分类模型训练方法,所述方法包括:获取训练数据集,所述训练数据集包括至少一个样本图结构数据,所述样本图结构数据包括:初始节点的特征以及各个初始节点之间的结构关系;获取预先建立的分类网络,所述分类网络包括:图池化模块和分类模块,所述图池化模块用于对图结构数据执行权利要求1-4之一所述的图池化方法,得到所述图结构数据的表征,所述分类模块基于所述图结构数据的表征,得到所述图结构数据的分类结果;执行以下训练步骤:将从所述训练数据集中选取的样本图结构数据输入所述分类网络,计算得到所述分类网络的损失值;基于所述损失值和所述分类网络,得到分类模型。6.一种重建模型训练方法,所述方法包括:获取训练数据集,所述训练数据集包括至少一个样本图结构数据,所述样本图结构数据包括:初始节点的特征以及各个初始节点之间的结构关系;获取预先建立的重建网络,所述重建网络包括:图池化模块和重建模块,所述图池化模块用于对图结构数据执行权利要求1-4之一所述的图池化方法,得到所述图结构数据的表征,所述重建模块基于所述图结构数据的表征,得到所述图结构数据的重建数据;执行以下训练步骤:将从所述训练数据集中选取的样本图结构数据输入所述重建网络,计算得到所述重建网络的损失值;基于所述损失值和所述重建网络,得到重建模型。
7.一种图结构数据分类方法,所述方法包括:获取待分类图结构数据,所述待分类图结构数据包括:初始节点的特征以及各个初始节点之间的结构关系;将所述待分类图结构数据输入采用如权利要求5所述的方法生成的图结构数据分类模型中,输出所述待分类图结构数据的分类结果。8.一种图结构数据重建方法,所述方法包括:获取待重建图结构数据,所述待重建图结构数据包括:初始节点的特征以及各个初始节点之间的结构关系;将所述待重建图结构数据输入采用如权利要求6所述的方法生成的重建模型中,输出所述待重建图结构数据的重建数据。9.一种图池化装置,所述装置包括:获取单元,被配置成获取图结构数据,所述图结构数据包括:初始节点的特征以及各个初始节点之间的结构关系;评分单元,被配置成对所述图结构数据中的各个初始节点的特征进行重要性评分,得到各个初始节点的分数向量;确定单元,被配置成基于所有初始节点和各个初始节点的分数向量,确定待处理节点,所述待处理节点的数量小于或等于初始节点的数量;得到单元,被配置成基于所述待处理节点的特征和所述待处理节点中各个待处理节点之间的结构关系,得到所述图结构数据的表征。10.一种分类模型训练装置,所述装置包括:样本获取单元,被配置成获取训练数据集,所述训练数据集包括至少一个样本图结构数据,所述样本图结构数据包括:初始节点的特征以及各个初始节点之间的结构关系;分类网络单元,被配置成获取预先建立的分类网络,所述分类网络包括:图池化模块和分类模块,所述图池化模块用于对图结构数据执行权利要求1-4之一所述的图池化方法,得到所述图结构数据的表征,所述分类模块基于所述图结构数据的表征,得到所述图结构数据的分类结果;计算单元,被配置成将从所述训练数据集中选取的样本图结构数据输入所述分类网络,计算得到所述分类网络的损失值;得到单元,被配置成基于所述损失值和所述分类网络,得到分类模型。11.一种重建模型训练装置,所述装置包括:样本获取单元,被配置成获取训练数据集,所述训练数据集包括至少一个样本图结构数据,所述样本图结构数据包括:初始节点的特征以及各个初始节点之间的结构关系;重建网络单元,被配置成获取预先建立的重建网络,所述重建网络包括:图池化模块和重建模块,所述图池化模块用于对图结构数据执行权利要求1-4之一所述的图池化方法,得到所述图结构数据的表征,所述重建模块基于所述图结构数据的表征,得到所述图结构数据的重建数据;计算单元,被配置成将从所述训练数据集中选取的样本图结构数据输入所述重建网络,计算得到所述重建网络的损失值;得到单元,被配置成基于所述损失值和所述重建网络,得到重建模型。
12.一种图结构数据分类装置,所述装置包括:结构获取单元,被配置成获取待分类图结构数据,所述待分类图结构数据包括:初始节点的特征以及各个初始节点之间的结构关系;分类输出单元,被配置成将所述待分类图结构输入采用如权利要求10所述的装置生成的分类模型中,输出所述待分类图结构数据的分类结果。13.一种图结构数据重建装置,所述装置包括:结构获取单元,被配置成获取待重建图结构数据,所述待重建图结构数据包括:初始节点的特征以及各个初始节点之间的结构关系;图像输出单元,被配置成将所述待重建图结构数据输入采用如权利要求11所述的装置生成的重建模型中,输出所述待重建图结构数据的重建数据。14.一种电子设备,包括:一个或多个处理器;存储装置,其上存储有一个或多个程序;当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-8中任一所述的方法。15.一种计算机可读介质,其上存储有计算机程序,其中,该程序被处理器执行时实现如权利要求1-8中任一所述的方法。16.一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现权利要求1-8中任一项所述的方法。
技术总结
本公开提供了一种图池化方法和装置,涉及深度学习等技术领域。该方法的一具体实施方式包括:获取图结构数据;对图结构数据中的各个初始节点的特征进行重要性评分,得到各个初始节点的分数向量;基于所有初始节点和各个初始节点的分数向量,确定待处理节点,待处理节点的数量小于或等于初始节点的数量;基于待处理节点的特征和待处理节点中各个待处理节点之间的结构关系,得到图结构数据的表征。该实施方式提高了图池化的效率、鲁棒性和准确率。鲁棒性和准确率。鲁棒性和准确率。
技术研发人员:詹忆冰 刘闯
受保护的技术使用者:京东科技信息技术有限公司
技术研发日:2021.12.09
技术公布日:2022/3/8