本技术涉及电气工程领域,具体而言,涉及一种无表格线文件的表格提取方法、计算机可读存储介质和电子设备。
背景技术:
::1、随着电网工程的快速发展,预算定额文件中包含大量的表格数据,这些数据对于项目管理和成本控制至关重要。然而,由于许多预算定额表格没有表格线,传统的格式转换方法往往会导致单元格错位和内容识别错误,严重影响数据的准确性和可用性。这些问题不仅增加了人工校对的工作量,还可能导致工程预算和管理决策的偏差。2、而针对以上问题,现有方案是采用图像处理的方法进行解决,图像处理方法通过边缘检测和连通域分析等技术提取表格的行列信息,适用于无表格线的表格,但对复杂背景和噪声较多的文件效果不佳。技术实现思路1、本技术的主要目的在于提供一种无表格线文件的表格提取方法、计算机可读存储介质和电子设备,以至少解决传统的格式转换方法常常导致单元格错位和内容识别错误,严重影响数据的准确性和实用性的问题。2、为了实现上述目的,根据本技术的一个方面,提供了一种无表格线文件的表格提取方法,包括:对电网工程预算定额pdf文件进行去除水印处理,得到第一处理文件;检索所述第一处理文件中包含表格的页面为目标页面,并将所有的所述目标页面汇总并转换为word文件,得到第二处理文件;将所述第二处理文件中所有表格的内容替换为包含相同文本的文本框,得到第三处理文件;对所述第三处理文件进行解析,至少得到所述第三处理文件中各文本框的位置信息,并根据各所述文本框的位置信息采用阈值法对各所述文本框进行分组和排序,得到多个文本框组;将各所述文本框按照组别顺序填入excel的单元格中,生成excel文件。3、可选地,对电网工程预算定额pdf文件进行去除水印处理,得到第一处理文件,包括:使用python中的pymupdf将所述电网工程预算定额pdf文件中的页面转换为png格式,得到图像文件;使用opencv和numpy进行傅里叶变换,将所述图像文件转换到频域,得到初始频域图像;在频域中识别并过滤掉所述初始频域图像中对应于水印的特定频率成分,得到处理后频域图像;将所述处理后频域图像进行逆傅里叶变换,得到去除水印图像,并将所述去除水印图像保存为pdf文件,得到所述第一处理文件。4、可选地,检索所述第一处理文件中包含表格的页面为目标页面,并将所有的所述目标页面汇总并转换为word文件,得到第二处理文件,包括:使用pdfplumber函数库的enumerate遍历所述第一处理文件中的每一页,同时获取页码和页面对象;使用et方法调用page.extract_tables()函数,从当前页面中提取表格,并将所述表格存储在tables列表中,所述tables列表与页面一一对应;在所述tables列表存在且长度大于0的情况下,确定与所述tables列表对应的所述页面中包含表格,并将含有表格的页面确定为目标页面;对所有的所述目标页面进行汇总并使用格式转换器将所述第一处理文件转换为word文件为所述第二处理文件。5、可选地,将所述第二处理文件中所有表格的内容替换为包含相同文本的文本框,得到第三处理文件,包括:检索所述第二处理文件中的单元格的内容;在所述单元格的内容不存在表格线的情况下,采用换行符对所述单元格的内容进行分割,得到分割后的文本,并将每个分割后的所述文本作为文本框内容;创建文本框形状,并设置文本框样式,以得到文本框,所述文本框样式包括所述文本框的位置所述文本框的大小信息;将所述文本框添加至所述单元格中,得到图文混排的word文件为所述第三处理文件。6、可选地,创建文本框形状,并设置文本框样式,以得到文本框,包括:创建结构化文档标签元素和sdtcontent元素,并将所述sdtcontent元素添加到所述结构化文档标签元素中,得到目标sdt元素,其中,所述结构化文档标签元素用于表示一个文本框;所述sdtcontent元素作为所述文本框的内容容器;创建段落元素、段落属性元素、文本运行元素和文本元素,其中,所述段落元素用于表征所述文本框的段落、所述段落属性元素用于定义所述段落的属性,所述文本运行元素用于表征所述段落中的一段文本,所述文本元素用于将文本内容设置为传入的文本参数,将所述段落属性元素添加至所述段落元素中,得到段落处理元素,将所述文本元素添加至所述文本运行元素中,得到第一处理元素,再将所述第一处理元素添加至所述段落处理元素中,得到第二处理元素,最后将所述第二处理元素添加到所述sdtcontent元素中,得到目标sdtcontent元素;创建sdtpr元素、w:sz元素和w:rpr元素,所述sdtpr元素用于设置所述文本框的属性,所述w:sz元素用于设置所述文本框中文本的字体大小,所述w:rpr元素用于表征所述文本框中文本的运行属性;根据所述目标sdt元素、所述目标sdtcontent元素、所述sdtpr元素、所述w:sz元素和所述w:rpr元素,得到目标文本框,并将所述目标文本框添加到单元格,将所述目标sdt元素添加到单元格的xml结构中。7、可选地,对所述第三处理文件进行解析,至少得到所述第三处理文件中各文本框的位置信息,包括:使用xpath函数查询文本框中的内容,并使用etree函数库解析所述第三处理文件中的xml内容;以文本框的左上角作为基点,查询xml节点中的<wp:positionh>和<wp:positionv>,得到文本框的初始水平信息和初始垂直信息;将所述初始水平信息和所述初始垂直信息进行单位换算,得到单位为厘米的所述文本框的水平位置信息和垂直位置信息。8、可选地,根据各所述文本框的位置信息采用阈值法对各所述文本框进行分组和排序,得到多个文本框组,包括:确定第一目标差值,所述第一目标差值为第i个文本框的横坐标与第j个文本框的横坐标的差值的绝对值,所述第i个文本框为当前检索的文本框,所述第j个文本框为已经检索并分组过的文本框;在所述第一目标差值小于或者等于阈值的情况下,将所述第i个文本框加入所述第j个文本框的所属组别,在所述第一目标差值大于所述阈值的情况下,基于所述第i个文本框建立新的组别,得到多个行分组;将各所述行分组中最小的行坐标作为本组的代表坐标进行各所述行分组之间的冒泡排序;确定第二目标差值,所述第二目标差值为第i个文本框的纵坐标与第j个文本框的纵坐标的差值的绝对值,所述第i个文本框为当前检索的文本框,所述第j个文本框为已经检索并分组过的文本框;在所述第二目标差值小于或者等于阈值的情况下,将所述第i个文本框加入所述第j个文本框的所属组别,在所述第二目标差值大于所述阈值的情况下,基于所述第i个文本框建立新的组别,得到多个列分组;将各所述列分组中最小的纵坐标作为本组的代表坐标进行各所述列分组之间的冒泡排序。9、可选地,将各所述文本框按照组别顺序填入excel的单元格中,生成excel文件,包括:获取各所述文本框的行组别编号和列组别编号,其中,所述文本框的行组别编号对应所述excel文件中的列号,所述文本框的列组别编号对应所述excel文件中的行号;根据各所述文本框的行组别编号和列组别编号将各所述文本框按照组别顺序填入excel的单元格中,生成所述excel文件。10、根据本技术的另一方面,提供了无表格线文件的表格提取装置,包括:第一处理单元,用于对电网工程预算定额pdf文件进行去除水印处理,得到第一处理文件;第二处理单元,用于检索所述第一处理文件中包含表格的页面为目标页面,并将所有的所述目标页面汇总并转换为word文件,得到第二处理文件;第三处理单元,用于将所述第二处理文件中所有表格的内容替换为包含相同文本的文本框,得到第三处理文件;第四处理单元,用于对所述第三处理文件进行解析,至少得到所述第三处理文件中各文本框的位置信息,并根据各所述文本框的位置信息采用阈值法对各所述文本框进行分组和排序,得到多个文本框组;第五处理单元,用于将各所述文本框按照组别顺序填入excel的单元格中,生成excel文件。11、根据本技术的另一方面,提供了一种计算机可读存储介质,所述计算机可读存储介质包括存储的程序,其中,在所述程序运行时控制所述计算机可读存储介质所在设备执行任意一种所述的无表格线文件的表格提取方法。12、根据本技术的另一方面,提供了一种电子设备,包括:一个或多个处理器,存储器,以及一个或多个程序,其中,所述一个或多个程序被存储在所述存储器中,并且被配置为由所述一个或多个处理器执行,上述一个或多个程序包括用于执行任意一种上述的无表格线文件的表格提取方法。13、应用本技术的技术方案,上述无表格线文件的表格提取方法,首先对电网工程预算定额pdf文件进行去除水印处理,得到第一处理文件;之后检索第一处理文件中包含表格的页面为目标页面,并将所有的目标页面汇总并转换为word文件,得到第二处理文件;然后将第二处理文件中所有表格的内容替换为包含相同文本的文本框,得到第三处理文件;对第三处理文件进行解析,至少得到第三处理文件中各文本框的位置信息,并根据各文本框的位置信息采用阈值法对各文本框进行分组和排序,得到多个文本框组;最后将各文本框按照组别顺序填入excel的单元格中,生成excel文件。该方法可以解决传统的格式转换方法常常导致单元格错位和内容识别错误,严重影响数据的准确性和实用性的问题,实现了电网工程预算定额pdf文件中无表格线表格的有效提取,克服了直接进行格式转换时的单元格错位和内容识别错误等难题,确保了数据的准确性和完整性,为后续电网工程预算定额表格数据的使用提供了可靠的保障。当前第1页12当前第1页12
技术特征:1.一种无表格线文件的表格提取方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,对电网工程预算定额pdf文件进行去除水印处理,得到第一处理文件,包括:
3.根据权利要求1所述的方法,其特征在于,检索所述第一处理文件中包含表格的页面为目标页面,并将所有的所述目标页面汇总并转换为word文件,得到第二处理文件,包括:
4.根据权利要求1所述的方法,其特征在于,将所述第二处理文件中所有表格的内容替换为包含相同文本的文本框,得到第三处理文件,包括:
5.根据权利要求4所述的方法,其特征在于,创建文本框形状,并设置文本框样式,以得到文本框,包括:
6.根据权利要求1所述的方法,其特征在于,对所述第三处理文件进行解析,至少得到所述第三处理文件中各文本框的位置信息,包括:
7.根据权利要求1所述的方法,其特征在于,根据各所述文本框的位置信息采用阈值法对各所述文本框进行分组和排序,得到多个文本框组,包括:
8.根据权利要求1所述的方法,其特征在于,将各所述文本框按照组别顺序填入excel的单元格中,生成excel文件,包括:
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质包括存储的程序,其中,在所述程序运行时控制所述计算机可读存储介质所在设备执行权利要求1至7中任意一项所述的无表格线文件的表格提取方法。
10.一种电子设备,其特征在于,包括:一个或多个处理器,存储器,以及一个或多个程序,其中,所述一个或多个程序被存储在所述存储器中,并且被配置为由所述一个或多个处理器执行,所述一个或多个程序包括用于执行权利要求1至7中任意一项所述的无表格线文件的表格提取方法。
技术总结本申请提供了一种无表格线文件的表格提取方法、存储介质和电子设备,该方法包括:对电网工程预算定额PDF文件进行去除水印处理,得到第一处理文件,检索包含表格的页面为目标页面,并将目标页面汇总并转换为Word文件,得到第二处理文件;将第二处理文件中所有表格的内容替换为包含相同文本的文本框,得到第三处理文件;对第三处理文件进行解析,得到第三处理文件中各文本框的位置信息,并根据各文本框的位置信息采用阈值法进行分组和排序,得到多个文本框组;将各文本框按照组别顺序填入Excel的单元格中,生成Excel文件。该方法解决了传统的格式转换方法导致单元格错位和内容识别错误,严重影响数据的准确性和实用性的问题。
技术研发人员:张丽萍,黎立,喻凌立,黄庆淡,李敏周,刘晓阳,净龙召,庞圣养,李志翔,符方炫,何璐羽,李端姣,李雄刚,张峰,蒙华伟,饶成成,王年孝,谢卓均,吴莉琳,龙雄峰,胡浩莹,许超尧,陈臻,廖颖欢
受保护的技术使用者:广东电网有限责任公司湛江供电局
技术研发日:技术公布日:2024/12/5