一种工程招标文件切分与聚合查询方法、系统及程序产品与流程

专利查询1天前  1


本发明属于文件分析,具体涉及一种工程招标文件切分与聚合查询方法、系统及程序产品。


背景技术:

1、工程招标文件是招标工程建设的大纲,是建设单位实施工程建设的工作依据,是向投标单位提供参加投标所需要的一切情况。工程招标文件的编制质量和深度,关系着整个招标工作的成败,而工程招标文件的繁简程度,要视招标工程项目的性质和规模而定。

2、对于建设项目复杂、规模庞大的招标工程,其工程招标文件内容繁杂,动辄几百页,投标单位如果采用传统纯人工阅读理解的方式进行解析,将付出巨大的人力成本,工作效率十分低,且人为出错的概率较高,容易导致编写投标文件被废标的情况,难以满足时效性和准确性的需求。


技术实现思路

1、本发明的目的是提供一种工程招标文件切分与聚合查询方法、系统及程序产品,用以解决现有技术中存在的上述问题。

2、为了实现上述目的,本发明采用以下技术方案:

3、第一方面,提供一种工程招标文件切分与聚合查询方法,包括:

4、获取工程招标文件,并对工程招标文件进行文本识别,得到对应的工程招标文件内容;

5、对工程招标文件内容进行文本解析,将工程招标文件内容切分为若干内容分块;

6、对各内容分块进行分词化处理,并对分词化处理结果进行向量化处理,得到各内容分块对应的分块向量;

7、调取设定查询主题的各查询内容,对各查询内容进行分词化处理,并对分词化处理结果进行向量化处理,得到各查询内容对应的查询向量;

8、根据各查询内容对应的查询向量以及各内容分块对应的分块向量,计算各内容分块相对于各查询内容的注意力权重参数;

9、将超过设定阈值且最大的若干个注意力权重参数所对应的内容分块作为匹配内容分块;

10、将各匹配内容分块聚合,得到设定查询主题的分块内容组合,并对设定查询主题的分块内容组合进行存储及输出。

11、在一个可能的设计中,所述方法还包括:

12、获取用户的查询语句,并基于用户的查询语句进行语义识别和查询主题匹配,确定对应的若干查询主题;

13、将确定的各查询主题的分块内容组合进行再组合,得到对应的多主题分块再组合结果,并输出多主题分块再组合结果。

14、在一个可能的设计中,所述对工程招标文件内容进行文本解析,将工程招标文件内容切分为若干内容分块,包括:

15、对工程招标文件内容进行文本解析,将工程招标文件内容按自然段落、表格、图片和/或页分界进行切分,得到若干内容分块;

16、获取各内容分块对应的元数据,将各元数据添加至对应的内容分块中。

17、在一个可能的设计中,对于包含数学公式的内容分块,所述方法还包括:

18、通过设定的数学公式识别工具将内容分块中的数学公式转化为格式化的表示数据。

19、在一个可能的设计中,所述对各内容分块进行分词化处理,并对分词化处理结果进行向量化处理,得到各内容分块对应的分块向量,包括:

20、对各内容分块进行分词化处理,将内容分块分割成独立元素序列,所述独立元素序列包含若干独立元素;

21、采用文本向量化模型对独立元素序列进行向量化处理,得到各内容分块对应的分块向量。

22、在一个可能的设计中,所述根据各查询内容对应的查询向量以及各内容分块对应的分块向量,计算各内容分块相对于各查询内容的注意力权重参数,包括:

23、将各查询内容对应的查询向量以及各内容分块对应的分块向量代入预置的注意力权重算式中进行遍历计算,得到各内容分块相对于各查询内容的注意力权重参数,所述注意力权重算式为

24、

25、其中,i表征内容分块所对应分块向量的标号,j表征查询内容所对应查询向量的标号,αij表征第i个内容分块所对应分块向量相对于第j个查询内容所对应查询向量的注意力权重参数,ki表征第i个内容分块所对应的分块向量,qj表征第j个查询内容所对应的查询向量,dk表征对应分块向量的维度,softmax()表征归一化指数函数。

26、在一个可能的设计中,所述将各匹配内容分块聚合,得到设定查询主题的分块内容组合,包括:

27、将各匹配内容分块按照设定的组合策略进行组合,得到初始内容组合;

28、对初始内容组合进行冗余去除处理、语义连贯性处理和/或分段处理,得到设定查询主题的分块内容组合。

29、第二方面,提供一种工程招标文件切分与聚合查询系统,包括文本识别单元、文本拆解单元、分块处理单元、查询处理单元、参数计算单元、分块匹配单元和分块组合单元,其中:

30、文本识别单元,用于获取工程招标文件,并对工程招标文件进行文本识别,得到对应的工程招标文件内容;

31、文本拆解单元,用于对工程招标文件内容进行文本解析,将工程招标文件内容切分为若干内容分块;

32、分块处理单元,用于对各内容分块进行分词化处理,并对分词化处理结果进行向量化处理,得到各内容分块对应的分块向量;

33、查询处理单元,用于调取设定查询主题的各查询内容,对各查询内容进行分词化处理,并对分词化处理结果进行向量化处理,得到各查询内容对应的查询向量;

34、参数计算单元,用于根据各查询内容对应的查询向量以及各内容分块对应的分块向量,计算各内容分块相对于各查询内容的注意力权重参数;

35、分块匹配单元,用于将超过设定阈值且最大的若干个注意力权重参数所对应的内容分块作为匹配内容分块;

36、分块组合单元,用于将各匹配内容分块聚合,得到设定查询主题的分块内容组合,并对设定查询主题的分块内容组合进行存储及输出。

37、第三方面,提供一种工程招标文件切分与聚合查询系统,包括:

38、存储器,用于存储指令;

39、处理器,用于读取所述存储器中存储的指令,并根据指令执行上述第一方面中任意一种所述的方法。

40、第四方面,提供一种计算机可读存储介质,所述计算机可读存储介质上存储有指令,当所述指令在计算机上运行时,使得所述计算机执行第一方面中任意一种所述的方法。同时,还提供一种计算机程序产品,当所述计算机程序产品在计算机上运行时,执行第一方面中任意一种所述的方法。

41、有益效果:本发明通过对工程招标文件进行识别解析,将其拆分成若干内容分块进行分词化和向量化处理,再对相应查询主题的查询内容进行分词化和向量化处理,然后进行查询与分块的向量相关性计算,筛选匹配的分块进行组合,得到相应主题的查询结果,以便实现高效、且精准的工程招标文件内容查询。本发明相对于传统人工阅读理解的方式,可以高效、低成本的还原出工程招标文件原有内容,节约人工阅读的时间,大幅提高工作效率,并且可以杜绝人为解析出错的情况,在一定程度上避免编写的投标文件被废标,满足用户对于工程招标文件解析的时效性和准确性需求。



技术特征:

1.一种工程招标文件切分与聚合查询方法,其特征在于,包括:

2.根据权利要求1所述的一种工程招标文件切分与聚合查询方法,其特征在于,所述方法还包括:

3.根据权利要求1所述的一种工程招标文件切分与聚合查询方法,其特征在于,所述对工程招标文件内容进行文本解析,将工程招标文件内容切分为若干内容分块,包括:

4.根据权利要求3所述的一种工程招标文件切分与聚合查询方法,其特征在于,对于包含数学公式的内容分块,所述方法还包括:

5.根据权利要求1所述的一种工程招标文件切分与聚合查询方法,其特征在于,所述对各内容分块进行分词化处理,并对分词化处理结果进行向量化处理,得到各内容分块对应的分块向量,包括:

6.根据权利要求1所述的一种工程招标文件切分与聚合查询方法,其特征在于,所述根据各查询内容对应的查询向量以及各内容分块对应的分块向量,计算各内容分块相对于各查询内容的注意力权重参数,包括:

7.根据权利要求1所述的一种工程招标文件切分与聚合查询方法,其特征在于,所述将各匹配内容分块聚合,得到设定查询主题的分块内容组合,包括:

8.一种工程招标文件切分与聚合查询系统,其特征在于,包括文本识别单元、文本拆解单元、分块处理单元、查询处理单元、参数计算单元、分块匹配单元和分块组合单元,其中:

9.一种工程招标文件切分与聚合查询系统,其特征在于,包括:

10.一种计算机程序产品,其特征在于,当所述计算机程序产品在计算机上运行时,执行权利要求1-7任意一项所述的工程招标文件切分与聚合查询方法。


技术总结
本发明属于文件分析技术领域,具体公开了一种工程招标文件切分与聚合查询方法、系统及程序产品,通过对工程招标文件进行识别解析,将其拆分成若干内容分块进行分词化和向量化处理,再对相应查询主题的查询内容进行分词化和向量化处理,然后进行查询与分块的向量相关性计算,筛选匹配的分块进行组合,得到相应主题的查询结果,以便实现高效、且精准的工程招标文件内容查询。本发明相对于传统人工阅读理解的方式,可以高效、低成本的还原出工程招标文件原有内容,节约人工阅读的时间,大幅提高工作效率,并且可以杜绝人为解析出错的情况,在一定程度上避免编写的投标文件被废标,满足用户对于工程招标文件解析的时效性和准确性需求。

技术研发人员:樊之谊,黄智博,唐宗强,张森,高松贺,黄学涛,谭卓,张大丽,和艳玲,于利民,许云侠,陈阳,徐川,潘隆丰,赵景山,畅敏,杨伟栋,高亦鹏,缪瑾,张胜为,赫永真,周亚东,张可非
受保护的技术使用者:四川隧唐科技股份有限公司
技术研发日:
技术公布日:2024/12/5

最新回复(0)