一种基于知识图谱的电力通信安全隐患风险等级分类方法与流程

本发明涉及电力通信安全领域，是一种基于知识图谱的电力隐患风险等级分类方法。

背景技术：

1、随着电力通信系统的规模越来越庞大，通信线路和设备种类日益复杂，设备数量也成倍增长，极大地增加了巡检人员的工作量。同时，设备投运时间增长和操作频次增加，加大了设备产生隐患的机率，若这些隐患不及时治理，将会危及电力系统的安全运行。而隐患的治理顺序、是否需要上报处理要根据隐患风险等级来进行确定。根据国网公司的数据，我国在电力通信安全隐患检测方面的研究和应用近年来取得了显著进展，电力通信系统的安全隐患检测技术不断更新，逐步向智能化和自动化方向发展，因此，电力通信安全隐患的检测与处理成为保障电力系统安全运行的重要任务。

2、目前，对电力通信安全隐患文本的智能处理化水平较低，主要存在以下问题如下：(1)在日常的检修与维护过程中，积累了大量的隐患文本数据，这些记录涵盖的范围较广，内容多以短文本的形式记录，存在隐患记录不规范的现象。(2)电力通信领域中的治理措施文本句子长、较难理解且包含了大量专业术语和技术细节，如电网拓扑结构、通信协议、设备类型等，这些专业术语需要专业知识才能准确理解，传统信息抽取方法不能很好地识别句子的语义。(3)历史隐患文本存储在闲置在系统中，对于实例数量庞大的电力通信安全隐患知识图谱，基于机器学习的文本分类方法有一些不足，如维数灾难、过拟合以及局部最优等。

技术实现思路

1、本发明的目的是，针对现有电力通信安全隐患风险等级的划分依赖人工经验导致对风险的判断和划分存在主观性和偏差，特别在大规模的复杂电力通信网络中，人工划分隐患风险等级耗时大且效率低，难以全面识别和考虑所有潜在的安全隐患风险因素，提出了一种基于知识图谱的电力通信安全隐患风险等级分类方法。首先，提出了基于bert-lattice-lstm的电力隐患实体识别模型，通过融合字向量与词向量的方式，实现电力通信安全隐患领域专业词汇实体的边界划分。其次，根据电力通信安全隐患文本专业词汇多、句子比较长和复杂度高的特点，设计了基于语义关联的简化神经网络模型，将电力通信安全隐患长文本进行化简，并提出基于规则的电力通信安全隐患实体关系抽取方法，生成相应的rdf(resourcedescription framework)三元组数据模型。最后，设计了电力通信安全隐患的领域本体，建立了电力通信安全隐患知识图谱，提出了基于改进的textcnn电力隐患风险等级分类模型，包含基于transh的电力隐患向量化表示层、基于textcnn的电力隐患风险等级分类层两个部分，实现了电力通信安全隐患风险等级的自动划分。

2、本发明的目的是由以下技术方案来实现的：一种基于知识图谱的电力通信安全隐患风险等级分类方法，它包括以下步骤：

3、步骤1)提出了基于bert-lattice-lstm的电力隐患实体识别模型，通过融合字向量与词向量的方式，实现电力通信安全隐患领域专业词汇实体的边界划分；

4、(1.1)将汇总的电力通信安全隐患排查治理档案表中的数据提取出来，进行数据清洗、分词、bio标注等操作，实现电力通信安全隐患文本的预处理；

5、(1.2)分别利用bert模型和word2vec模型进行字向量和词向量的预训练。其中，利用word2vec模型，采用连续词袋架构cbow来进行电力隐患文本的词向量训练。将分词后的数据作为输入，完成word2vec模型搭建和训练；

6、(1.3)初始化bert-lattice-lstm模型的bert模块和latticelstm命名实体识别模块相关参数，并对学习率、训练轮次等超参数进行初始化。基于训练集对bert-lattice-lstm模型进行训练和学习，利用adam优化算法进行bert模型的参数优化；

7、步骤2)针对电力通信安全隐患文本专业词汇多、句子长且复杂的特点，设计了一种基于语义关联的简化神经网络模型，对电力通信安全隐患长文本进行简化，并提出了一种基于规则的实体关系抽取方法，生成对应的电力通信安全隐患rdf三元组数据模型；

8、(2.1)设计基于语义关联的简化神经网络模型，包括自门控编码器、解码器和相似函数三部分。其中自门控编码器的作用是将源文本压缩为语义向量，解码器的作用是生成文本的语义向量，相似度函数的作用是评估源文本和生成的文本二者的相关性程度。

9、(2.2)自门控编码器能测量每个单词的重要性，并决定保留多少信息作为文本的表示。在每个时间步，每个即将出现的单词xt都被送入lstm单元，该单元输出密集向量ht被表示为：

10、ht＝f(xt,ht-1)

11、式中f—lstm函数；ht-1,ht—t-1，t时刻的lstm单元的输出向量。

12、保留信息的比例公式为：

13、βt＝sigmoid(g(ht))

14、式中g—前馈神经网络函数；sigmod—激活函数；。

15、最后，通过乘以βt计算反向信息：

16、

17、式中—第t个时间步的表示；—第t+1个时间步的xt+1的输入嵌入。

18、(2.3)解码器的目标是从源文本的密集表示中生成一系列简化单词。源文本的密集表示被输入注意层以生成上下文向量ct，具体公式为：

19、

20、式中ct—源文本目标文本在第t个时间步的上下文信息；

21、st—目标文本在第t个时间步的上下文信息。

22、为了预测第t个单词，解码器使用ct和st生成候选单词的概率分布：

23、

24、式中w和wc—输出层的参数矩阵；[:]—拼接函数；tanh—代表激活函数。

25、最后，预测概率最高的单词：

26、

27、(2.4)相似度函数使用余弦相似度，能很好的度量同一空间中两个向量之间距离的方法。电网通信安全隐患的源文本和生成的文本的语言相同，假设它们的语义向量分布在相同的空间中，使用余弦相似度来衡量语义相关性，其用点积和大小表示：

28、

29、式中vt—源语义向量；

30、vs—生成的语义向量。

31、其中，语义向量vt如下公式所示：

32、

33、式中—lstm编码器的最后一个状态；—解码器，包含源文本和生成文本的信息。

34、(2.5)提出了一种基于规则的实体关系抽取方法，挖掘电力通信安全隐患措施文本间的依存关系，建立安全隐患现象的依存规则，分析利用python中的hanlp库对处理的简单句进行依存关系分析以识别句子核心词，通过递归扩展收集所有并列的谓语词汇；

35、(2.6)遍历每个谓语，构建包含主语、谓语、宾语的rdf三元组模型。对于缺少主语的信息元组，向上追溯至具有主语的父级信息元组，并继承其主语，以此确保信息元组的完整性；

36、(2.7)输出一系列提炼自文本简化句的完整信息元组，为电力通信安全隐患知识图谱的实体属性抽取提供结构化的数据模型基础；

37、步骤3)设计了电力通信安全隐患的领域本体，建立了电力通信安全隐患知识图谱，提出了基于改进的textcnn电力隐患风险等级分类模型，包含基于transh的电力隐患向量化表示层、基于textcnn的电力隐患风险等级分类层两个部分，实现了电力通信安全隐患风险等级的自动划分；

38、(3.1)建立领域核心概念层次结构、概念间的层次结构和属性关系，设置相应的约束条件，使用protégé来填充电力隐患的本体模型，并添加一些类实例；

39、(3.2)根据构建的本体模型，整合并构建电力安全隐患知识图谱，使用neo4j图数据库进行知识存储，通过transh模型对知识图谱中的三元组进行向量化，将关系特定的平移向量dr定位在关系特定的超平面wr中；

40、(3.3)利用textcnn模型进行电力隐患风险等级的分类，使用transh向量化表示后的电力安全隐患三元组向量作为输入，提取特征向量并进行卷积和池化操作，使用大小为n*embedding的卷积核来聚合每句话中单词的上下文特征，使用最大池化减少模型的参数并消除句子之间的长度差异。添加了一个softmax层，使用dropout和l2正则化来防止过拟合，最终通过全连接层输出隐患风险等级的分类结果；

技术特征：

1.一种基于知识图谱的电力通信安全隐患风险等级分类方法，它包括以下步骤：

技术总结
本发明针对现有电力通信安全隐患风险等级的划分依赖人工经验导致对风险的判断和划分存在主观性和偏差，特别在大规模的复杂电力通信网络中，人工划分隐患风险等级耗时大且效率低，难以全面识别和考虑所有潜在的安全隐患风险因素，发明了一种基于知识图谱的电力通信安全隐患风险等级分类方法。首先，提出了基于BERT‑Lattice‑LSTM的电力隐患实体识别模型，通过融合字向量与词向量的方式，实现电力通信安全隐患领域专业词汇实体的边界划分。其次，根据电力通信安全隐患文本专业词汇多、句子比较长和复杂度高的特点，设计了基于语义关联的简化神经网络模型，将电力通信安全隐患长文本进行化简，并提出基于规则的电力通信安全隐患实体关系抽取方法，生成相应的电力通信安全隐患RDF(resource description framework)三元组数据模型。最后，设计了电力通信安全隐患的领域本体，建立了电力通信安全隐患知识图谱，提出了基于改进的TextCNN电力通信隐患风险等级分类模型，包含基于TransH的电力通信安全隐患知识图谱向量化表示层、基于TextCNN的电力通信隐患风险等级分类层两个部分，实现了电力通信安全隐患风险等级的自动划分。

技术研发人员：粘中元,崔鸣石,李国强,王华,慕春芳,李永明,薛文丽,高翔,孙晶,张强,徐海铭,马超
受保护的技术使用者：国网内蒙古东部电力有限公司信息通信分公司
技术研发日：
技术公布日：2024/12/5

专利

最新回复(0)