本发明公开一种用于多类型文档的信息过滤方法及装置,涉及智能生产。
背景技术:
1、trie 树也称为前缀树、字典树、单词查找树,哈系树的一种变种,通常被用于字符串匹配,用来解决在一组字符串集合中快速查找某个字符串的问题。它的优点是:利用字符串的公共前缀来减少查询时间,最大限度地减少无谓的字符串比较,查询效率比哈希树高。
2、aho-corasick(ac)自动机是一种建立在 trie 树上的一种改进算法,是一种多模式匹配算法,由贝尔实验室的研究人员 alfred v. aho 和 margaret j.corasick 发明。ac 自动机算法使用 trie 树来存放模式串的前缀,通过失败匹配指针(失配指针)来处理匹配失败的跳转。
3、ocr (optical character recognition,光学字符识别)是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程。
4、redis(remote dictionary server ),即远程字典服务,是一个开源的使用ansic语言编写、支持网络、可基于内存亦可持久化的日志型、key-value数据库,并提供多种语言的api。
5、office open xml,也称为 openxml 或 ooxml,是一种基于 xml 的办公文档格式,包括文字处理文档、电子表格、演示文稿以及图表、图表、形状和其他图形材料。该规范由 microsoft 开发,2006 年被 ecma 国际采用为 ecma-376。2008 年 12 月发布了第二个版本,2011 年 6 月发布了该标准的第三个版本。该规范已被 iso 和 iec 采纳作为iso/iec 29500。
6、现有技术的响应速度缓慢,信息过滤系统需要处理巨大的数据量,在确保在满足用户需求的同时,保持系统的响应速度非常困难。本系统优化了检索算法,对图像信息和文字信息进行多进程处理,采用实时展示的方式解决了用户感觉卡顿的问题。
7、有些图像信息或者是文字会有一些混淆和同义替换的情况,对识别关键信息容易造成漏识别和伪识别。本系统优化了词组和词组分割算法,增加图片的竖型和倾斜型的识别,是识别内容更准确。
技术实现思路
1、本发明针对现有技术的问题,提供一种用于多类型文档的信息过滤方法及装置,所采用的技术方案为:
2、第一方面,一种用于多类型文档的信息过滤方法,所述方法包括:
3、s1,根据流式文档和版式文档的文档结构,通过xml解析和二进制解析分别对ooxml格式文档和ofd格式文档进行解析,得到待识别文档;
4、s2,根据所述待识别文档建立共享分词库,通过将所述待识别文档中的文字信息进行保存;
5、s3,根据所述待识别文档中的图片信息,通过改进ocr处理保存至所述共享分词库中,并标记来源地址为图片;
6、s4,根据需要检测过滤的词组的表,建立对应的前缀树;
7、s5,根据所述前缀树,构建失败指南针进行字符匹配检测;
8、s6,根据所述失败指南针遍历的节点,通过对所述节点建立字典后缀;
9、s7,根据所述字符匹配检测成功的字符串,通过整理所述字符串的位置信息和上下文信息,建立对应的列表并输出至前端。
10、在一些实现方式中,所述s2具体包括:
11、s21,根据所述待识别文档的文字信息,对文字位置信息和上下文信息进行保存;
12、s22,根据保存的信息,通过最大匹配算法进行分词处理,得到词语序列;
13、s23,根据将所述词语序列存入分词共享分词库中,并建立首字索引。
14、在一些实现方式中,所述s5具体包括:
15、s51,根据所述前缀树的节点构建指向最长后缀节点的失败指南针;
16、s52,根据所示失败指南针的节点访问位置,通过跟随其父节点的失败指南针确定最长后缀节点,并检查所述最长后缀节点的子节点中是否有与当前节点匹配的字符;
17、s53,如果没有匹配,通过继续跟随所述后续指针寻找下一个最长后缀,直至匹配所述当前节点直至到达根节点。
18、在一些实现方式中,所述s5还包括:
19、s54,根据所述根节点,通过输入文本中的每个字符进行对应的状态转换;
20、s55,当所述当前节点有对应字符的子节点时,将所述失败指南针向下转换;
21、s56,当所述当前节点没有对应字符的子节点且有字典后缀时,将所述失败指南针沿所述字典后缀进行转换。
22、第二方面,本发明实施例提供一种用于多类型文档的信息过滤装置,所述装置包括:
23、类型解析模块,用于根据流式文档和版式文档的文档结构,通过xml解析和二进制解析分别对ooxml格式文档和ofd格式文档进行解析,得到待识别文档;
24、文档建立模块,用于根据所述待识别文档建立共享分词库,通过将所述待识别文档中的文字信息进行保存;
25、图片保存模块,用于根据所述待识别文档中的图片信息,通过改进ocr处理保存至所述共享分词库中,并标记来源地址为图片;
26、前缀树模块,用于根据需要检测过滤的词组的表,建立对应的前缀树;
27、匹配检测模块,用于根据所述前缀树,构建失败指南针进行字符匹配检测;
28、s6,根据所述失败指南针遍历的节点,通过对所述节点建立字典后缀;
29、s7,根据所述字符匹配检测成功的字符串,通过整理所述字符串的位置信息和上下文信息,建立对应的列表并输出至前端。
30、在一些实现方式中,所述文档建立模块,具体包括:
31、信息处理单元,用于根据所述待识别文档的文字信息,对文字位置信息和上下文信息进行保存;
32、分词处理单元,用于根据保存的信息,通过最大匹配算法进行分词处理,得到词语序列;
33、索引处理单元,用于根据将所述词语序列存入分词共享分词库中,并建立首字索引。
34、在一些实现方式中,所述匹配检测模块,具体包括:
35、指南针构建单元,用于根据所述前缀树的节点构建指向最长后缀节点的失败指南针;
36、节点匹配单元,用于根据所示失败指南针的节点访问位置,通过跟随其父节点的失败指南针确定最长后缀节点,并检查所述最长后缀节点的子节点中是否有与当前节点匹配的字符;
37、后缀匹配单元,用于如果没有匹配,通过继续跟随所述后续指针寻找下一个最长后缀,直至匹配所述当前节点直至到达根节点。
38、在一些实现方式中,所述匹配检测模块,还包括:
39、字符转换单元,用于根据所述根节点,通过输入文本中的每个字符进行对应的状态转换;
40、向下转换单元,用于当所述当前节点有对应字符的子节点时,将所述失败指南针向下转换;
41、向后转换单元,用于当所述当前节点没有对应字符的子节点且有字典后缀时,将所述失败指南针沿所述字典后缀进行转换。
42、第三方面,本发明实施例提供一种电子设备,包括存储器和处理器,所述存储器用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被所述处理器执行时,实现如上述第一方面所述的方法。
43、第四方面,本发明实施例提供一种计算机存储介质,所述计算机可读取存储介质中存储有计算机程序,所述计算机程序被处理器执行时,用实现如第一方面所述的方法。
44、本发明的一个或多个实施例至少能够带来如下有益效果:
45、本文提供了一种多用于多类型文档的信息过滤方法,能够识别搜索出批量输入的文档关心的搜索词,也能够过滤出包含设定词库的文件,通过识别过滤特定类型的文档,如机密文件、敏感数据等,能有效阻止这些文件被非法访问或泄露,保护企业的核心机密和隐私信息。
46、本发明方法能够自动识别和过滤文档,减少人工干预,提高工作效率。同时,自动化的处理方式也能降低人为错误的风险。通过设定不同的过滤规则和策略,对不同类型、不同级别的文档进行精细化管理,满足企业多样化的管理需求。通过过滤出用户需要的信息,能够减少用户的文件干扰和负担,快速定位需要信息的位置。同时能够与网盘云盘等系统连接,快速筛选网盘云盘的信息,获取网盘中需要的文件。多类型文档信息识别过滤系统在企业信息安全、工作效率、资源利用、合规性以及用户体验等方面都具有显著的有益效果。
1.一种用于多类型文档的信息过滤方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述s2具体包括:
3.根据权利要求2所述的方法,其特征在于,所述s5具体包括:
4.根据权利要求3所述的方法,其特征在于,所述s5还包括:
5.一种用于多类型文档的信息过滤装置,其特征在于,所述装置包括:
6.根据权利要求5所述的装置,其特征在于,所述文档建立模块,具体包括:
7.根据权利要求6所述的装置,其特征在于,所述匹配检测模块,具体包括:
8.根据权利要求7所述的装置,其特征在于,所述匹配检测模块,还包括:
9.一种电子设备,其特征在于,包括存储器和处理器,所述存储器用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被所述处理器执行时实现如上述权利要求1-4中任意一项所述方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读取存储介质中存储有计算机程序,所述计算机程序被处理器执行时用以实现如上述权利要求1-4中任意一项所述方法。