电力应急文档表格抽取与知识生成方法与流程

专利查询11小时前  4


本技术涉及计算机,特别是涉及一种电力应急文档表格抽取与知识生成方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。


背景技术:

1、随着电力行业的快速发展,电力应急处理成为保障电网稳定运行的重要环节。电力应急处理能够在电力系统出现故障、事故或面临其他紧急情况时,采取的一系列预先规划和即时行动,以控制、减轻或消除潜在的危害,尽快恢复电力系统的正常运行,保障电力供应的可靠性,在电力应急处理中,快速准确获取和处理相关文档信息对于及时响应和解决问题具有至关重要的作用。

2、传统技术中主要基于预先设计的简单规则匹配对电力应急文档中的表格内容进行抽取,然而,传统技术进行表格抽取依赖于预先设计的领域知识模板和规则集,对非标准化和领域多样的复杂表格的处理能力有限,且抽取到的表格内容的完整程度不足,存在表格内容中知识的遗漏和偏差,不利于提高电力应急文档表格抽取与知识生成过程的准确率。


技术实现思路

1、基于此,有必要针对上述技术问题,提供一种能够提高电力应急文档表格抽取与知识生成过程的准确率的电力应急文档表格抽取与知识生成方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。

2、第一方面,本技术提供了一种电力应急文档表格抽取与知识生成方法,包括:

3、对待处理图像进行文本识别,得到所述待处理图像的文本识别结果和所述待处理图像的文本识别结果对应的位置信息;所述待处理图像包括目标电力应急文档;所述目标电力应急文档包括待处理表格;

4、通过预训练的表格抽取模型获取所述待处理图像中所述待处理表格的表格结构信息,并根据所述表格结构信息确定所述待处理表格中各单元格的位置信息;

5、针对所述各单元格中的任一单元格,根据所述任一单元格的位置信息与所述待处理图像的文本识别结果对应的位置信息,从所述待处理图像的文本识别结果中筛选出目标文本识别结果,将所述目标文本识别结果映射至所述任一单元格中;所述目标文本识别结果对应的位置信息与所述任一单元格的位置信息相匹配;

6、根据所述各单元格中的文本识别结果,生成所述待处理表格对应的知识信息。

7、在其中一个实施例中,所述对待处理图像进行文本识别,得到所述待处理图像的文本识别结果和所述待处理图像的文本识别结果对应的位置信息,包括:

8、将所述待处理图像输入至预训练的文本检测模型,得到所述文本检测结果;所述文本检测结果用于表征所述待处理图像中各文本的位置信息;

9、根据所述文本检测结果从所述待处理图像中确定所述文本检测结果对应的图像块;

10、将所述图像块输入至预训练的文本识别模型,得到所述图像块对应的文本识别结果;

11、将所述图像块对应的文本识别结果作为所述待处理图像的文本识别结果,将所述图像块对应的文本检测结果作为所述待处理图像的文本识别结果对应的位置信息。

12、在其中一个实施例中,所述根据所述各单元格中的文本识别结果,生成所述待处理表格对应的知识信息,包括:

13、针对所述各单元格中的任一单元格,根据所述任一单元格中的文本识别结果,确定所述任一单元格对应的文本内容信息;

14、根据所述任一单元格对应的文本内容信息,确定所述待处理表格对应的实体信息;

15、根据所述实体信息生成所述待处理表格对应的知识信息。

16、在其中一个实施例中,所述生成所述待处理表格对应的知识信息的步骤之后,所述方法还包括:

17、对比所述待处理表格对应的知识信息,确定待去除知识信息,并将所述待去除知识信息从所述待处理表格对应的知识信息中去除,得到过滤后知识信息;

18、对所述过滤后知识信息进行分类,得到知识分类结果;

19、按照所述知识分类结果将所述过滤后知识信息存储至预设的知识数据库;所述知识数据库用于电力应急处理。

20、在其中一个实施例中,所述对待处理图像进行文本识别的步骤之前,所述方法还包括:

21、按照预设尺寸对所述待处理图像进行缩放处理,得到预处理后的待处理图像;

22、根据所述预处理后的待处理图像确定所述目标电力应急文档中的待去除文档信息,并将所述待去除文档信息从所述目标电力应急文档中去除,得到过滤后文档;

23、按照预设文档格式对所述过滤后文档进行标准化,得到预处理后的目标电力应急文档。

24、在其中一个实施例中,所述方法还包括:

25、获取样本图像;所述样本图像包括样本文档;所述样本文档包括样本表格;

26、将所述样本图像输入至待训练的表格抽取模型,得到所述样本图像中所述样本表格的表格结构信息,并根据所述样本表格的表格结构信息确定所述样本表格中各单元格的位置信息;

27、获取所述样本表格对应的表格结构参考信息和单元格位置参考信息,根据所述表格结构参考信息和所述样本表格的表格结构信息,以及所述单元格位置参考信息和所述样本表格中各单元格的位置信息,训练所述待训练的表格抽取模型。

28、第二方面,本技术还提供了一种电力应急文档表格抽取与知识生成装置,包括:

29、文本识别模块,用于对待处理图像进行文本识别,得到所述待处理图像的文本识别结果和所述待处理图像的文本识别结果对应的位置信息;所述待处理图像包括目标电力应急文档;所述目标电力应急文档包括待处理表格;

30、表格抽取模块,用于通过预训练的表格抽取模型获取所述待处理图像中所述待处理表格的表格结构信息,并根据所述表格结构信息确定所述待处理表格中各单元格的位置信息;

31、结果匹配模块,用于针对所述各单元格中的任一单元格,根据所述任一单元格的位置信息与所述待处理图像的文本识别结果对应的位置信息,从所述待处理图像的文本识别结果中筛选出目标文本识别结果,将所述目标文本识别结果映射至所述任一单元格中;所述目标文本识别结果对应的位置信息与所述任一单元格的位置信息相匹配;

32、知识生成模块,用于根据所述各单元格中的文本识别结果,生成所述待处理表格对应的知识信息。

33、第三方面,本技术还提供了一种计算机设备。所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被处理器执行时实现上述的方法的步骤。

34、第四方面,本技术还提供了一种计算机可读存储介质。所述计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述的方法的步骤。

35、第五方面,本技术还提供了一种计算机程序产品。所述计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现上述的方法的步骤。

36、上述电力应急文档表格抽取与知识生成方法、装置、计算机设备、计算机可读存储介质和计算机程序产品,通过对待处理图像进行文本识别,得到待处理图像的文本识别结果和待处理图像的文本识别结果对应的位置信息,从而准确分析待处理图像中的文本内容和文本所处位置;待处理图像包括目标电力应急文档;目标电力应急文档包括待处理表格;通过预训练的表格抽取模型获取待处理图像中待处理表格的表格结构信息,并根据表格结构信息确定待处理表格中各单元格的位置信息,从而利用表格抽取模型准确分析待处理图像中表格的表格结构,为后续结合表格结构确定表格内容提供数据基础;针对各单元格中的任一单元格,根据任一单元格的位置信息与待处理图像的文本识别结果对应的位置信息,从待处理图像的文本识别结果中筛选出目标文本识别结果,将目标文本识别结果映射至任一单元格中,从而准确获取与位置信息互相匹配的文本识别结果和单元格;目标文本识别结果对应的位置信息与任一单元格的位置信息相匹配;根据各单元格中的文本识别结果,生成待处理表格对应的知识信息,能够基于表格抽取模型准确分析电力应急文档中表格的表格结构,避免预设规则或模板影响表格抽取结果的准确性,并结合针对电力应急文档的文本识别结果及位置信息,完整准确地获取电力应急文档表格中各单元格的文本内容,从而基于单元格的文本内容准确生成电力应急文档表格对应的表格知识,进而提高电力应急文档表格抽取与知识生成过程的准确率。


技术特征:

1.一种电力应急文档表格抽取与知识生成方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述对待处理图像进行文本识别,得到所述待处理图像的文本识别结果和所述待处理图像的文本识别结果对应的位置信息,包括:

3.根据权利要求1所述的方法,其特征在于,所述根据所述各单元格中的文本识别结果,生成所述待处理表格对应的知识信息,包括:

4.根据权利要求1所述的方法,其特征在于,所述生成所述待处理表格对应的知识信息的步骤之后,所述方法还包括:

5.根据权利要求1所述的方法,其特征在于,所述对待处理图像进行文本识别的步骤之前,所述方法还包括:

6.根据权利要求1所述的方法,其特征在于,所述方法还包括:

7.一种电力应急文档表格抽取与知识生成装置,其特征在于,所述装置包括:

8.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述的方法的步骤。

9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。

10.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。


技术总结
本申请涉及一种电力应急文档表格抽取与知识生成方法。所述方法包括:对待处理图像进行文本识别,得到待处理图像的文本识别结果和待处理图像的文本识别结果对应的位置信息;通过预训练的表格抽取模型获取待处理图像中待处理表格的表格结构信息,并根据表格结构信息确定待处理表格中各单元格的位置信息;针对各单元格中的任一单元格,根据任一单元格的位置信息与待处理图像的文本识别结果对应的位置信息,从待处理图像的文本识别结果中筛选出目标文本识别结果,将目标文本识别结果映射至任一单元格中;根据各单元格中的文本识别结果,生成待处理表格对应的知识信息。采用本方法能够提高电力应急文档表格抽取与知识生成过程的准确率。

技术研发人员:陈彩娜,张壮领,郑松源,杨绍群,潘岐深,胡秀珍,毕明利,蒋毅,胡振维,莫一夫,陈佳鹏,王隆,李维立
受保护的技术使用者:广东电网有限责任公司
技术研发日:
技术公布日:2024/12/5

最新回复(0)