本发明涉及电力安全大数据,具体涉及一种电力安全知识文档的在线特征提取方法及系统。
背景技术:
1、面对高维场景时,特征选择是降维的主要方法,随着计算机技术和大数据技术的发展,使得实时处理在线流数据成为了可能,实现在线流特征选择(online streamingfeature selection,osfs)。新形势下,电力系统要实现对电网的实时监测和安全性分析,目前仍然面临诸多的机遇和挑战。目前,电力系统上传数据类型主要以各个节点的电流、电压、功率等数字信息为主,但要判断是否符合电力安全相关的规程和规定,还需要结合各类异常事件等相关安全性的文本描述。同样的,采样时间间隔不统一,会造成数据的缺失,因此,当特征流中充满大量缺失数据时,如何进行准确的流特征选择是目前需要研究的难点和重点。
2、由于电力安全数据高维性和稀疏性的并存,在特征选择方面出现了新的挑战。为了解决这一问题,文献[1]提出了一种基于潜在因子分析的在线稀疏流特征选择算法(online sparse streaming feature selection algorithm,lossa),该算法使用潜在特征分析(lfa)来插补稀疏流特征的缺失数据,然后使用osfs算法进行特征选择。然而,lossa算法没有考虑特征插补阶段和特征选择阶段之间的相关性。当使用lfa进行特征插补时,完成度量基于插补特征与原始稀疏特征之间的均方根误差(rmse)。然而,这种方法忽略了特征选择阶段和特征插补阶段之间的联系。另一方面,lossa算法中的lfa采用单一的面向距离的损失,忽略了目标数据的其他特征描述指标,如l1范数。
3、其中,文献[1]为d.wu,y.he,x.luo,and m.zhou,“alatent factoranalysis-based approach to online sparse streaming feature selection,”ieeetrans.syst.man cybern,syst.,vol.52,no.11,pp.6744-6758,nov.2022.
技术实现思路
1、发明目的:为了克服现有技术的不足,本发明提供了一种电力安全知识文档的在线特征提取方法,该方法解决了对电力文本信息提取准确度低,噪声干扰大的问题,本发明还提供一种电力安全知识文档的在线特征提取系统。
2、技术方案:根据本发明的第一方面,提供电力安全知识文档的在线特征提取方法,该方法包括以下步骤:
3、s1按照一定的时间间隔逐时刻采集电力安全知识文档中的电力信息文本数据;
4、s2对采集的电力信息文本数据进行存储;
5、s3对存储后的文本数据采用bert算法逐时刻的转化为待测矩阵;其中,当前时刻未上传文本数据对应部分的待测矩阵元素值设定为缺失值;
6、s4利用在线填充方法对得到的待测矩阵中缺失值进行填充,并对填充好的矩阵进行相关性分析,从而计算出当前文本数据的矩阵特征;
7、s5将当前文本数据的矩阵特征和历史矩阵特征进行分析,筛除其中的冗余特征,并更新历史矩阵特征;
8、s6重复执行步骤s3-s5,直到所有文本数据都完成了电力安全特征提取。
9、进一步的,包括:
10、所述步骤s3中,对存储后的文本数据采用bert算法逐时刻的转化为待测矩阵,具体包括:
11、s31利用bert算法将t时刻的文本数据转化为矩阵ft;
12、s32在缓存中划分出w×h的待测矩阵大小的缓存,其中,ft的维度大于等于w×h;
13、s33按照待测矩阵大小将矩阵ft的数据逐一放入缓存,得到待测矩阵b;其中缺失值也需要对应占位,待测矩阵b=[bi,j]1≤i≤w,1≤j≤h,w为特征矩阵宽度参数,h为特征矩阵高度参数。
14、进一步的,包括:
15、所述步骤s4中,在线填充方法对得到的待测矩阵中缺失值进行填充具体包括:
16、s41用零元素初始化生成特征矩阵:
17、u=[ui,k]1≤i≤w,1≤k≤d、v=[vi,k]1≤i≤h,1≤k≤d;
18、以及中间过程特征矩阵:
19、u1=[u1i,k]1≤i≤w,1≤k≤d、v1=[v1i,k]1≤i≤h,1≤k≤d、u2=[u2i,k]1≤i≤w,1≤k≤d、v2=[v2i,k]1≤i≤h,1≤k≤d;
20、s42遍历i、j,计算当前迭代次数n对应的两个判定变量:
21、
22、其中,u1i,k(n)表示迭代次数为n对应的u1i,k,其余上标(n)的定义相同,||·||2为二范数;s43当δ1i,j(n)≥0时,按照以下公式计算更新u1i,k(n+1)、v1j,k(n+1):
23、
24、否则,按照以下公式计算更新u1i,k(n+1)、v1j,k(n+1):
25、
26、其中,η为学习率,λ为正则化参数;
27、s44当δ2i,j(n)≥0时,按照以下公式计算更新u2i,k(n+1)、v2j,k(n+1):
28、
29、否则,按照以下公式计算更新u2i,k(n+1)、v2j,k(n+1):
30、
31、s45更新l1范数和l2范数的调节系数:
32、
33、其中,为平衡系数;
34、s46重复步骤s42~s45,直到迭代次数n到达最大迭代次数iter或者u、v矩阵中的所有元素迭代差值小于人为设定的阈值;其中,u、v矩阵中的所有元素迭代差值表示为:
35、
36、其中,d为特征维度,α1、α2分别为l1范数和l2范数的调节系数;
37、s47计算出填充矩阵
38、其中,ui,k(n)=α1(n)·u1i,k(n)+α2(n)·u2i,k(n),vi,k(n)=α1(n)·v1i,k(n)+α2(n)·v2i,k(n);
39、s48利用矩阵对应的元素填充待测矩阵b中的缺失元素。
40、进一步的,包括:
41、所述步骤s4中,对填充好的矩阵进行相关性分析,从而计算出当前文本数据的矩阵特征,所述相关性分析为利用三支决策方法进行相关性分析,具体包括:
42、s49初始化显著性水平α、β,以及代价cost;同时,设定特征集合中间集合
43、s410对带有标记的历史数据进行学习,使得代价cost更小,利用深度学习网络更新显著性水平α、β;
44、s411计算t时刻对应填充好的待测矩阵ft对应的分类属性c的条件相关系数dep(c,ft);
45、s412如果条件相关系数dep(c,ft)<β,则t时刻对应特征不属于分类属性c,放弃存储t时刻待测矩阵ft;如果条件相关系数dep(c,ft)>α,则t时刻对应特征属于分类属性c,将t时刻填充好的待测矩阵ft放入到特征集合pos中;否则,将t时刻填充好的待测矩阵ft放入到中间集合bnd中,并执行步骤s413;
46、s413当特征集合时,对任意的xf∈pos,遍历f′t∈bnd,将满足p(c|f′t,xf)≠p(c|xf)的矩阵f′t放入到特征集合pos中;其中,p(·)为概率函数;
47、s414输出当前文本数据的矩阵特征,即特征集合pos。
48、进一步的,包括:
49、所述步骤s4中,对填充好的矩阵进行相关性分析,从而计算出当前文本数据的矩阵特征,所述相关性分析为利用三支决策方法进行相关性分析,具体包括:
50、s49初始化显著性水平α、β,以及代价cost;同时,设定特征集合中间集合
51、s410对带有标记的历史数据进行学习,使得代价cost更小,利用目标方程和约束方程更新显著性水平α、β;
52、s411计算t时刻对应填充好的待测矩阵ft对应的分类属性c的条件相关系数dep(c,ft);
53、s412如果条件相关系数dep(c,ft)<β,则t时刻对应特征不属于分类属性c,放弃存储t时刻待测矩阵ft;
54、如果条件相关系数dep(c,ft)>α,则t时刻对应特征属于分类属性c,将t时刻填充好的待测矩阵ft放入到特征集合pos中;
55、否则,将t时刻填充好的待测矩阵ft放入到中间集合bnd中,并执行步骤s413;
56、s413当特征集合时,对任意的xf∈pos,遍历f′t∈bnd,将满足p(c|f′t,xf)≠p(c|xf)的矩阵f′t放入到特征集合pos中;其中,p(·)为概率函数;
57、s414输出当前文本数据的矩阵特征,即特征集合pos。
58、进一步的,包括:
59、所述步骤s410中,利用目标方程和约束方程更新显著性水平α、β,具体包括:
60、所述目标方程表示为:
61、
62、所述约束方程表示为:
63、
64、rpp≤rbp≤rep,
65、ree≤rbe≤rpe,
66、
67、同时满足:
68、(1)如果历史数据中特征属于分类属性c,那么rp≤rb、rp≤re;
69、(2)如果历史数据中特征不属于分类属性c,那么rb≤rp、rb≤re;
70、(3)其他re≤rp、re≤rb;
71、其中,为非操作;rep、rpe、rbp、rbe、rpp、ree、为待定超参数,通过求解上述优化模型计算出。
72、另一方面,本发明还提供一种电力安全知识文档的在线特征提取系统,该系统包括:
73、接收模块,用于接收电力信息采集设备采集的文本数据;
74、存储模块,包括文本缓存单元、矩阵存储单元和特征存储单元,所述文本缓存单元用于存储所述接收模块传来的文本数据,所述矩阵存储单元用于储存待测矩阵、特征矩阵、中间过程特征矩阵,所述特征存储单元用于储存提取的文本数据的特征;
75、预处理模块,用于基于bert算法将文本缓存单元中的文本数据转化为矩阵数据,并发送给所述矩阵存储单元;
76、数据填充模块,用于利用在线填充方法对待测矩阵中的缺失数据进行填充;
77、特征提取模块,用于对填充好的文本数据矩阵进行相关性分析,提取特征存入特征存储单元,并删除特征存储单元中的冗余特征;
78、参数初始化模块,用于初始化上述模块中涉及的相关参数。
79、进一步的,包括:
80、所述特征提取模块包括:相关性分析单元、冗余分析单元和迭代输出单元,
81、所述相关性分析单元用于在线实现特征相关性计算,判断文本数据特征类别;所述冗余分析单元用于在线筛除特征存储单元中所有特征中的冗余特征;所述迭代输出单元用于迭代更新文本数据特征,并输出到特征存储单元。
82、进一步的,包括:
83、所述数据填充模块中,利用在线填充方法对待测矩阵中的缺失数据进行填充,具体包括以下步骤:
84、步骤1:用零元素初始化生成特征矩阵:
85、u=[ui,k]1≤i≤w,1≤k≤d、v=[vi,k]1≤i≤h,1≤k≤d;
86、以及中间过程特征矩阵:
87、u1=[u1i,k]1≤i≤w,1≤k≤d、v1=[v1i,k]1≤i≤h,1≤k≤d、u2=[u2i,k]1≤i≤w,1≤k(d、v2=[v2i,k]1≤i≤h,1≤k≤d;
88、步骤2:遍历i、j,计算当前迭代次数n对应的两个判定变量:
89、
90、其中,u1i,k(n)表示迭代次数为n对应的u1i,k,其余上标(n)的定义相同,||·||2为二范数;
91、步骤3:当δ1i,j(n)≥0时,按照以下公式计算更新u1i,k(n+1)、v1j,k(n+1):
92、
93、否则,按照以下公式计算更新u1i,k(n+1)、v1j,k(n+1):
94、
95、其中,η为学习率,λ为正则化参数;
96、步骤4:当δ2i,j(n)≥0时,按照以下公式计算更新u2i,k(n+1)、v2j,k(n+1):
97、
98、否则,按照以下公式计算更新u2i,k(n+1)、v2j,k(n+1):
99、
100、步骤5:更新l1范数和l2范数的调节系数:
101、
102、其中,为平衡系数;
103、步骤6:重复步骤2~步骤5,直到迭代次数n到达最大迭代次数iter或者u、v矩阵中的所有元素迭代差值小于人为设定的阈值;其中,u、v矩阵中的所有元素迭代差值表示为:
104、
105、其中,d为特征维度,α1、α2分别为l1范数和l2范数的调节系数;
106、步骤7:计算出填充矩阵
107、其中,ui,k(n)=α1(n)·u1i,k(n)+α2(n)·u2i,k(n),vi,k(n)=α1(n)·v1i,k(n)+α2(n)·v2i,k(n);
108、步骤8:利用矩阵对应的元素填充待测矩阵b中的缺失元素。
109、进一步的,包括:
110、所述相关性分析单元中的相关性计算为利用三支决策方法进行相关性分析,具体包括以下步骤:
111、步骤一:初始化显著性水平α、β,以及代价cost;同时,设定特征集合中间集合
112、步骤二:对带有标记的历史数据进行学习,使得代价cost更小,利用深度学习网络更新显著性水平α、β;
113、步骤三:计算t时刻对应填充好的待测矩阵ft对应的分类属性c的条件相关系数dep(c,ft);
114、步骤四:如果条件相关系数dep(c,ft)<β,则t时刻对应特征不属于分类属性c,放弃存储t时刻待测矩阵ft;如果条件相关系数dep(c,ft)>α,则t时刻对应特征属于分类属性c,将t时刻填充好的待测矩阵ft放入到特征集合pos中;否则,将t时刻填充好的待测矩阵ft放入到中间集合bnd中,并执行步骤五;
115、步骤五:当特征集合时,对任意的xf∈pos,遍历f′t∈bnd,将满足p(c|f′t,xf)≠p(c|xf)的矩阵f′t放入到特征集合pos中;其中,p(·)为概率函数;
116、步骤六:输出当前文本数据的矩阵特征,即特征集合pos。
117、然后,本发明还包括一种电子设备,所述电子设备包括:
118、至少一个处理器;以及
119、与所述至少一个处理器通信连接的存储器;其中,
120、所述存储器存储有被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述所述的特征提取方法。
121、最后,本发明还公开一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使处理器执行时实现上述所述的特征提取方法
122、有益效果:与现有技术相比,本发明具有以下优点:
123、本发明首先通过bert算法对电力信息文本进行矩阵化,然后构造基于l1和l2范数的在线填充方法,能够处理具备大量缺失值、极端稀疏的电力安全特征提取,极大的减小了误差的空间距离,非线性拟合程度更高,比现有的特征抽取方法具有更高的鲁棒性和精度,且保持计算复杂度与待测矩阵中的已知元素个数呈线性关系,即计算效率高。
1.一种电力安全知识文档的在线特征提取方法,其特征在于,该方法包括以下步骤:
2.根据权利要求1所述的电力安全知识文档的在线特征提取方法,其特征在于,所述步骤s2中,对采集的文本数据采用bert算法逐时刻的转化为待测矩阵,具体包括:
3.根据权利要求2所述的电力安全知识文档的在线特征提取方法,其特征在于,所述步骤s3中,对填充好的矩阵进行相关性分析,从而计算出当前文本数据的矩阵特征,所述相关性分析为利用三支决策方法进行相关性分析,具体包括:
4.根据权利要求2所述的电力安全知识文档的在线特征提取方法,其特征在于,所述步骤s3中,对填充好的矩阵进行相关性分析,从而计算出当前文本数据的矩阵特征,所述相关性分析为利用三支决策方法进行相关性分析,具体包括:
5.根据权利要求4所述的电力安全知识文档的在线特征提取方法,其特征在于,所述步骤s310中,利用目标方程和约束方程更新显著性水平α、β,具体包括:
6.一种电力安全知识文档的在线特征提取系统,其特征在于,该系统包括:
7.根据权利要求6所述的电力安全知识文档的在线特征提取系统,其特征在于,
8.根据权利要求7所述的电力安全知识文档的在线特征提取系统,其特征在于,所述相关性分析单元中的相关性计算为利用三支决策方法进行相关性分析,具体包括以下步骤:
9.一种电子设备,其特征在于,所述电子设备包括:
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使处理器执行时实现权利要求1-5中任一项所述的特征提取方法。