一种电网意见工单智能分类方法与流程

专利查询12天前  12


本发明属于电力行业文本检测处理,具体涉及一种电网意见工单智能分类方法。


背景技术:

1、随着信息化的快速发展,电网积累的数据越来越多,供电服务工单量每年海量增长,人工提取有效数据已经不能满足当前需要,高效快速的提取这些工单中的有效信息十分重要,电网的供电服务工单包括故障报修、查询咨询、业务申请、投诉、举报、意见建议、客户催办、营配稽查校核、疑似停电预警分析9个类别,对每个工单准确快速分类能够为电力行业供电服务工作者快速了解客户诉求提供有力的工作支撑,伴随着信息化时代的到来,目前的智能分类方法大多使用循环神经网络rnn模型分类,通过对输入的数据文本进行特征学习和特征提取,获取其中的重要信息,此方法文本向量的表示空间维度大,且泛化性不强,不保证特征获取的完整性,具有一定的局限性;因此,提供一种灵活性高、获取特征信息多、提升分类效果和准确性、减少人工分类时间的一种电网意见工单智能分类方法是非常有必要的。


技术实现思路

1、本发明的目的是为了克服现有技术的不足,而提供一种灵活性高、获取特征信息多、提升分类效果和准确性、减少人工分类时间的一种电网意见工单智能分类方法。

2、本发明的目的是这样实现的:一种电网意见工单智能分类方法,所述方法包括以下步骤:

3、步骤1:收集电网供电服务工单数据,构建供电服务工单数据集,并对收集到的数据进行预处理;

4、步骤2:将供电服务工单数据集中的文本数据利用jieba分词工具进行分词,并使用word2vector转化为向量表示;

5、步骤3:bert层:使用二元交叉熵损失函数预训练和微调bert模块,动态获取需要分类的文本的前后语义信息,输出包含语义关系的文本向量;

6、步骤4:bilstm层:使用bilstm将bert层输出的文本向量和文本输入词向量拼接后进行特征提取,输出包含更多特征和语义信息的文本向量;

7、步骤5:注意力层:计算bilstm层输出的文本各词语的权重,对句子分类结果越重要的词,其权重越大;

8、步骤6:输出层:通过全连接层将加权后的输出映射到这9个类别的类别空间中,通过softmax函数归一化处理,计算出文本各类别的概率分布,概率值最大的类别即为文本数据最终所被分到的类别。

9、所述步骤1具体包括以下步骤:

10、步骤1.1:收集电网供电服务工单并构建数据集,工单类别包括故障报修、查询咨询、业务申请、投诉、举报、意见建议、客户催办、营配稽查校核、疑似停电预警分析9个类别;

11、步骤1.2:对收集到的数据进行清洗,包括去除重复数据,数据规范化处理,剔除无效、错误数据操作,得到规范化的供电服务工单数据集。

12、所述步骤2具体为:供电服务工单数据集中的数据由文本组成,每个文本中有一个或多个句子,si代表第i个句子,用jieba分词工具对句子si进行分词,得到该句子所对应的词序列{c1,c2,...,cj},使用word2vector工具对这些词向量化后,得到对应的词向量

13、所述步骤3中的二元交叉熵损失函数具体为:交叉熵损失函数l用于计算真实分类结果和模型预测结果的差值,作为模型训练的导向目标,其中,n是总样本数;xi、yi分别是第i个文本分类的真实值和预测值。

14、所述步骤3具体包括以下步骤:

15、步骤3.1:bert模型中的wordpiece分词工具将文本si分割成单字,得到字集合{w1,w2,...,wi},wi表示句子si中的第i个字;

16、步骤3.2:将第i个句子si各个字{w1,w2,...,wi}向量化后作为bert的输入,每个字wi包含三个信息:字向量文本向量和位置向量其中表示第i个字的字向量;表示第i个句子的文本向量;表示第i个字的位置向量;

17、步骤3.3:预训练bert模型:对每个字的字向量、文本向量和位置向量进行向量加和编码,得到包含三个信息的文本向量表示:输入bert模型中进行预训练,该预训练任务包含文本遮掩和文本预测,训练出一个具有学习语义的通用bert模型;

18、步骤3.4:微调bert模型:在预训练后的bert模型上,使用特定分类任务的数据进行模型训练,即让模型在该供电服务工单分类的特定任务下自适应调整模型学习参数,训练一个适用于本分类任务的bert模型,并保存性能最好的模型,以便后续分类使用;

19、步骤3.5:微调后得到适用于本分类任务的bert模型,对需要分类的文本进行特征学习后,输出包含语义信息的向量表示

20、所述步骤4具体包括以下步骤:

21、步骤4.1:将句子si的词向量和bert层输出的文本向量拼接后,得到句子si对应的新的文本向量

22、步骤4.2:根据s时刻的输入词ms和前一时刻s(t-1)输出的隐藏向量通过sigmoid函数计算出遗忘门rs,rs是一个n维向量,每个维度上的值都在(0,1)之间,结果在哪个维度上的值接近0,哪个维度上的信息就被遗忘,接近1会被保留;

23、步骤4.3:计算出rs后,在s时刻输入新信息,根据ms和通过sigmoid函数计算出输入门ps的值,得到新输入的信息,上一时刻的输入信息某些被遗忘;

24、步骤4.4:输入门ps决定s时刻被输入的信息,此时通过tanh函数非线性变换后得到xs′,存储当前输入状态s时刻下的重要信息;

25、步骤4.5:通过上一时刻s(t-1)的信息和当前时刻s的信息加和后得到xs,其作用是决定将哪些信息被记住并输出给下一个时刻s(t+1),同时根据ms和通过sigmoid函数计算出输出门qs,得到对应的输出信息,对xs进行非线性变换后,与qs相乘得到隐藏状态的向量输出即当前时刻s下的输出。

26、所述步骤4.4中的通过tanh函数非线性变换后得到xs′具体为:式中,xs′是记忆单元,存储非线性变换后当前输入状态时刻s下的重要信息。

27、所述步骤4.5中的通过上一时刻s(t-1)的信息和当前时刻s的信息加和后得到xs为:xs=rs*x(s-1)+ps*xs′;通过sigmoid函数计算出输出门qs为:当前时刻s下的输出为:式中,mr、mp、mx、mq分别表示不同状态下需要学习的权重参数;ar、ap、ax、aq分别表示不同状态下的偏置参数。

28、所述步骤5具体包括以下步骤:

29、步骤5.1:根据bilstm层输出的隐藏表示计算出s时刻时句子si各词语的权重is:式中,m和a分别为权重和偏置;

30、步骤5.2:通过归一化处理得到权重系数:式中,q为随机初始化的一个值;

31、步骤5.3:将权重系数zs和隐藏向量表示加权求和,得到注意力层的输出表示os:

32、所述步骤6具体包括以下步骤:

33、步骤6.1:对注意力层的输出表示os,在全连接层将其映射到包含供电服务工单9个类别的向量维度中,得到全连接层的输出矩阵a,a=l*os+b,式中,l1,l2,...,l9分别代表供电服务工单的9个类别标签;b为偏置参数;

34、步骤6.2:使用softmax函数将全连接层的输出进行归一化处理后,转化为概率分布,即每个句子所属类别的概率值,概率最大的类别即为句子最后被分到的类别:y′=softmax(ma+a),式中,m和a分别为权重和偏置;y′表示softmax函数输出的概率值。

35、本发明的有益效果:本发明为一种电网意见工单智能分类方法,本发明充分利用预训练模型bert和循环神经网络bilstm模型的优点,避免文本特征学习不完全的弊端,在使用中,在供电服务工单这个特定分类任务下,bert使用数据预训练和模型微调后,得到适应于该分类任务的模型,相较于其他模型具有很大的灵活性,同时输出包含文本特征的向量表示;通过对数据输入和bert输出向量表示拼接后,bilstm模型进行前后语义信息学习,提取文本中重要的特征,相较于其他单向rnn模型,获取到的特征信息更多;融合注意力机制,计算词语相似度,赋予不同词语不同的权重,能很好地区分出各词语对句子的重要性,从而提升分类效果;bert、bilstm和注意力机制三者的结合,极大程度提升了电网供电服务工单各类别数据分类的准确性,减少了人工分类时间,对快速获取各类别工单有效信息提供有力支撑,为提升客户用电满意度提供智能化的技术保障;本发明具有灵活性高、获取特征信息多、提升分类效果和准确性、减少人工分类时间的优点。


技术特征:

1.一种电网意见工单智能分类方法,其特征在于:所述方法包括以下步骤:

2.如权利要求1所述的一种电网意见工单智能分类方法,其特征在于:所述步骤1具体包括以下步骤:

3.如权利要求1所述的一种电网意见工单智能分类方法,其特征在于:所述步骤2具体为:供电服务工单数据集中的数据由文本组成,每个文本中有一个或多个句子,si代表第i个句子,用jieba分词工具对句子si进行分词,得到该句子所对应的词序列{c1,c2,...,cj},使用word2vector工具对这些词向量化后,得到对应的词向量

4.如权利要求1所述的一种电网意见工单智能分类方法,其特征在于:所述步骤3中的二元交叉熵损失函数具体为:交叉熵损失函数l用于计算真实分类结果和模型预测结果的差值,作为模型训练的导向目标,其中,n是总样本数;xi、yi分别是第i个文本分类的真实值和预测值。

5.如权利要求4所述的一种电网意见工单智能分类方法,其特征在于:所述步骤3具体包括以下步骤:

6.如权利要求1所述的一种电网意见工单智能分类方法,其特征在于:所述步骤4具体包括以下步骤:

7.如权利要求6所述的一种电网意见工单智能分类方法,其特征在于:所述步骤4.4中的通过tanh函数非线性变换后得到xs′具体为:式中,xs′是记忆单元,存储非线性变换后当前输入状态时刻s下的重要信息。

8.如权利要求6所述的一种电网意见工单智能分类方法,其特征在于:所述步骤4.5中的通过上一时刻s(t-1)的信息和当前时刻s的信息加和后得到xs为:xs=rs*x(s-1)+ps*xs′;通过sigmoid函数计算出输出门qs为:当前时刻s下的输出为:式中,mr、mp、mx、mq分别表示不同状态下需要学习的权重参数;ar、ap、ax、aq分别表示不同状态下的偏置参数。

9.如权利要求1所述的一种电网意见工单智能分类方法,其特征在于:所述步骤5具体包括以下步骤:

10.如权利要求1所述的一种电网意见工单智能分类方法,其特征在于:所述步骤6具体包括以下步骤:


技术总结
本发明涉及一种电网意见工单智能分类方法,包括以下步骤:收集电网供电服务工单数据,构建数据集,并进行预处理;将数据集中的文本数据进行分词,并转化为向量表示;预训练和微调BERT模块,动态获取需要分类的文本的前后语义信息,输出包含语义关系的文本向量;将Bert层输出的文本向量和文本输入词向量拼接后进行特征提取,输出包含更多特征和语义信息的文本向量;计算BiLSTM层输出的文本各词语的权重,对句子分类结果越重要的词,其权重越大;将加权后的输出映射到类别空间中,归一化处理,计算概率分布,概率值最大的类别即为文本数据最终所被分到的类别;本发明具有灵活性高、获取特征信息多、提升分类效果和准确性、减少人工分类时间的优点。

技术研发人员:李雅笛,李鑫,侯文华,郭歌,成冬霞,李向阳,崔广涛,魏政帅,郑城市,李健,李军
受保护的技术使用者:国网河南省电力公司济源供电公司
技术研发日:
技术公布日:2024/12/5

最新回复(0)