一种文档处理方法、装置、设备及存储介质与流程

专利查询2023-3-1  115



1.本发明涉及信息处理技术领域,更具体地说,涉及一种文档处理方法、装置、设备及存储介质。


背景技术:

2.随着信息爆炸时代的到来,海量的信息中混杂着大量无价值、不相关的信息,信息检索是查找重要、有价值信息的一项基础而又关键性的任务,通过信息检索,可以过滤掉与检索问题相关度低的信息,进而将最有用的信息展现出来。目前大多数检索方法使用的是基于分词频率的词权重实现信息检索,但是这种方式下实现的信息检索准确率较低。


技术实现要素:

3.本发明的目的是提供一种文档处理方法、装置、设备及存储介质,能够有效提高信息检索准确率。
4.为了实现上述目的,本发明提供如下技术方案:
5.一种文档处理方法,包括:
6.确定需要检索的各文档分别为待检索文档;
7.将各待检索文档分别输入至词权重模型中,得到所述词权重模型输出的相应待检索文档中各个词的词权重;其中,所述词权重模型为预先利用多个文本及相应文本中各个词的词权重训练得到的;
8.将已得到所包含的各个词的词权重的各待检索文档均加入至知识库中,以供基于所包含的各个词的词权重在所述知识库中实现待检索文档的检索。
9.优选的,利用多个文本及相应文本中各个词的词权重训练得到词权重模型,包括:
10.获取包含有多个相似对的数据集;其中,单个相似对中包含单个问题及与该单个问题对应的多个文档的文档标题;
11.对所述数据集中包含的各相似对做分词处理,并采用相似问题统计方式基于分词处理所得的结果确定各相似对包含的各问题中各个词的词权重;
12.利用所述数据集中各相似对包含的各问题以及各问题中各个词的词权重作为训练语料,并利用所述训练语料训练得到相应的词权重模型。
13.优选的,采用相似问题统计方式基于分词处理所得的结果确定各相似对包含的各问题中各个词的词权重,包括:
14.按照下列公式确定各相似对包含的各问题中各个词的词权重:
[0015][0016]
其中,q
t
为问题q中的第t个词,s
qt
为q
t
的词权重,d为问题q所属相似对中包含的文档标题的集合,n及|d|均为集合d中文档标题的数量。
[0017]
优选的,利用所述训练语料训练得到相应的词权重模型,包括:
[0018]
利用所述训练语料对deepct模型进行训练,得到相应的词权重模型。
[0019]
优选的,将各待检索文档分别输入至词权重模型中之前,还包括:
[0020]
对各待检索文档进行统一编码、去除无效字符及建立索引的操作。
[0021]
优选的,将已得到所包含的各个词的词权重的各待检索文档均加入至知识库中之前,还包括:
[0022]
对各待检索文档进行词频统计及词性标注,执行将已得到所包含的各个词的词权重的各待检索文档均加入至知识库中的步骤,以供基于词频统计、词性标记及所包含各个词的词权重在所述知识库中实现待检索文档的检索。
[0023]
优选的,将已得到所包含的各个词的词权重的各待检索文档均加入至知识库中之后,还包括:
[0024]
获取需要实现检索的问题为当前问题,基于各待检索文档的词频统计、词性标记及所包含的各个词的词权重通过匹配式检索、交互式检索或者混合式检索在所述知识库中实现待检索文档的检索。
[0025]
一种文档处理装置,包括:
[0026]
文档确定模块,用于:确定需要检索的各文档分别为待检索文档;
[0027]
权重确定模块,用于:将各待检索文档分别输入至词权重模型中,得到所述词权重模型输出的相应待检索文档中各个词的词权重;其中,所述词权重模型为预先利用多个文本及相应文本中各个词的词权重训练得到的;
[0028]
文档存储模块,用于:将已得到所包含的各个词的词权重的各待检索文档均加入至知识库中,以基于所包含的各个词的词权重在所述知识库中实现待检索文档的检索。
[0029]
一种电子设备,包括:
[0030]
存储器,用于存储计算机程序;
[0031]
处理器,用于执行所述计算机程序时实现如上任一项所述文档处理方法的步骤。
[0032]
一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上任一项所述文档处理方法的步骤。
[0033]
本发明提供了一种文档处理方法、装置、设备及存储介质,该方法包括:确定需要检索的各文档分别为待检索文档;将各待检索文档分别输入至词权重模型中,得到所述词权重模型输出的相应待检索文档中各个词的词权重;将已得到所包含的各个词的词权重的各待检索文档均加入至知识库中,以供基于所包含的各个词的词权重在所述知识库中实现待检索文档的检索;其中,所述词权重模型为预先利用多个文本及相应文本中各个词的词权重训练得到的。本技术预先利用多个文本及表示相应文本中各个词的重要程度的词权重训练得到词权重模型,进而利用词权重模型得到需要检索的文档中各个词的词权重,并将得到所包含的各个词的词权重的文档加入至知识库中,以在后续基于所包含的各个词的词权重实现知识库中的文档检索。可见,对于需要检索的文档,本技术能够利用模型得到能够有效表示其中各个词的重要程度的词权重,进而在需要时基于得到的各个词的词权重实现相应文档的检索,能够有效提高信息检索准确率。
附图说明
[0034]
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现
有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
[0035]
图1为本发明实施例提供的一种文档处理方法的流程图;
[0036]
图2为本发明实施例提供的一种文档处理方法中相似对的示例图;
[0037]
图3为本发明实施例提供的一种文档处理方法中已计算有相应词权重的相似对的示例图;
[0038]
图4为本发明实施例提供的一种文档处理方法中deepct模型实现示意图;
[0039]
图5为本发明实施例提供的一种文档处理方法的具体实现示意图;
[0040]
图6为本发明实施例提供的一种文档处理装置的结构示意图。
具体实施方式
[0041]
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0042]
请参阅图1,其示出了本发明实施例提供的一种文档处理方法,可以包括:
[0043]
s11:确定需要检索的各文档分别为待检索文档。
[0044]
其中,需要检索的文档即为需要加入至知识库中的被检索的文档;另外,本技术实施例可以应用于金融领域,当然根据实际需要应用于其他领域,也均在本发明的保护范围之内。
[0045]
s12:将各待检索文档分别输入至词权重模型中,得到词权重模型输出的相应待检索文档中各个词的词权重;其中,词权重模型为预先利用多个文本及相应文本中各个词的词权重训练得到的。
[0046]
为了使得为文档中各词设置的词权重能够充分体现其在相应文档中的重要性,本技术实施例可以预先获取多个文本(具体可以为句子、段落等)以及每个文本包含的各个词的词权重(该词权重是基于其在所属文本中的重要性设置的与其在所属文本中的重要性相对应的数据信息),然后将这些文本及相应文本中包含的各个词的词权重作为训练语料,训练得到词权重模型;进而在需要获取任意文档中的各个词的词权重时,则将该任意文档输入至词权重模型中,得到词权重模型输出的为该任意文档中各个词设置的词权重。
[0047]
s13:将已得到所包含的各个词的词权重的各待检索文档均加入至知识库中,以供基于所包含的各个词的词权重在知识库中实现待检索文档的检索。
[0048]
在得到各文档分别包含的各个词的词权重后,可以将相应文档中各个词的词权重代替相应词的分词频率权重,进而在对知识库进行知识检索时则可以基于各文档中各个词的词权重实现检索;另外,基于文档中各个词的词权重实现检索与现有技术中基于各个词的分词频率权重实现检索的实现原理是一致的,在此不再过多赘述。
[0049]
本技术预先利用多个文本及表示相应文本中各个词的重要程度的词权重训练得到词权重模型,进而利用词权重模型得到需要检索的文档中各个词的词权重,并将得到所包含的各个词的词权重的文档加入至知识库中,以在后续基于所包含的各个词的词权重实
现知识库中的文档检索。可见,对于需要检索的文档,本技术能够利用模型得到能够有效表示其中各个词的重要程度的词权重,进而在需要时基于得到的各个词的词权重实现相应文档的检索,能够有效提高信息检索准确率。
[0050]
本发明实施例提供的一种文档处理方法,利用多个文本及相应文本中各个词的词权重训练得到词权重模型,可以包括:
[0051]
获取包含有多个相似对的数据集;其中,单个相似对中包含单个问题及与该单个问题对应的多个文档的文档标题;
[0052]
对数据集中包含的各相似对做分词处理,并采用相似问题统计方式基于分词处理所得的结果确定各相似对包含的各问题中各个词的词权重;
[0053]
利用数据集中各相似对包含的各问题以及各问题中各个词的词权重作为训练语料,并利用训练语料训练得到相应的词权重模型。
[0054]
采用相似问题统计方式基于分词处理所得的结果确定各相似对包含的各问题中各个词的词权重,可以包括:
[0055]
按照下列公式确定各相似对包含的各问题中各个词的词权重:
[0056][0057]
其中,q
t
为问题q中的第t个词,s
qt
为q
t
的词权重,d为问题q所属相似对中包含的文档标题的集合,n及|d|均为集合d中文档标题的数量。
[0058]
利用训练语料训练得到相应的词权重模型,可以包括:
[0059]
利用训练语料对deepct(深度上下文词权重框架)模型进行训练,得到相应的词权重模型。
[0060]
需要说明的是,本技术实施例中可以采用deepct模型实现词权重模型,从而利用deepct模型的优势有效提高词权重确定的准确性。并且,为了使得词权重模型学习到的词权重能够有效体现其重要程度,本技术实施例中词权重模型的构建过程具体可以包括:
[0061]
基于开源的问答数据集筛选构建模型训练的数据集;其中,开源问答数据集中包括有多个样例,一个样例包含一个问题和相应的多个文档,每个文档又包含一个标题,标题与相应问题的相似度较高,因此对于段文档而言,可以由此构建问题与标题的相似对,单个相似对包含单个问题及与该单个问题相应的各文档的标题,一般单个相似对中一个问题可以对应5-15个标题,而对于长文档而言,可以选取文档及对应标题作为相似对,一般一个文档对应4-5个标题,此时文档就相当于问题,为了便于统一说明,本技术实施例中在相似对包含文档及相应标题时,将相似对中包含的文档也称之为问题,从而得到筛选后的包含有多个相似对(图2即为相似对的示例图)的数据集。
[0062]
对筛选后的数据集做分词处理,然后根据相似问题统计数据集中各问题包含的每个词的词权重,然后将各相似对中包含的问题(即文本)及其包含的各个词的词权重作为训练语料(图3即为确定有相应词的词权重的相似对的示例图);具体确定词权重可以按照下列公式实现:
[0063]
[0064]
deepct模型的实现可以如图4所示,包括两个主要部分:(1)通过bert生成上下文化的词embedding;(2)通过线性回归预测词汇权重。具体来说,可以包括:
[0065]
上下文词embedding生成:要估计一个词在特定文本中的重要性最关键的问题是生成能够描述一个词与文本上下文之间关系的特征;deepct使用当前效果最好的bert模型来提取词的上下文特征;
[0066]
映射到目标权重:上下文词embedding是一个包含词在特定语境中的句法和语义信息的特征向量,deepct将这些特征向量线性地变化成一个词的重要性得分:
[0067][0068]
其中,t
t,c
是文本c中第t个词的上下文表征向量,w和b分别是线性变化的权重和偏置;
[0069]
deepct训练针对于每个词的回归任务:给定文档c中每个词的真实权重,记为y1,c,
……
,yn,c,目标是最小化真实标签y与预测标签的均方误差:
[0070][0071]
在预测过程中预测的词权重的范围一个为(-∞,+∞),但由于训练的真实标签大多数在[0,1]之间,因此实际上大多数预测权重也在[0,1]。在建立索引的过程中,查询问题和文档的加权方法是接受任何非负权值,因此带有负权值的预测项会被丢弃;
[0072]
用为电力知识库等数据与所有的faq知识库的数据进行测试,测试完成之后,输入一些短句,看模型给出的词权重是怎样的:
[0073]
[0074][0075]
对于相同的词在不同的语境下,其重要程度也会不一样,这里举了两个例子:
[0076][0077]
第一个例子中的第一句“我的手机坏了”,重点应该是手机,第二句中“手机的图形处理能力”,重点不仅仅是手机,也在其图形处理能力上,所以手机的权重值下降;同样,第二个例子中“战斗机”在第一句话中的权重值也应大于第二句。
[0078]
本发明实施例提供的一种文档处理方法,将各待检索文档分别输入至词权重模型
中之前,还可以包括:
[0079]
对各待检索文档进行统一编码、去除无效字符及建立索引的操作。
[0080]
需要说明的是,本技术实施例对需要检索的文档集合中所有的文档进行数据预处理,便于后续实现相应的文档处理及存储等操作。其中,数据预处理可以包括统一编码、去除无效字符和建立索引等;统一编码可以指将所有文档的文本格式通过编码解码的方式转为utf-8编码格式,比如将unicode编码的文本转成utf-8的文本格式;去除无效字符可以是将文档中包含的不具有实际含义的字符去除,如去除空格、特定符号等;而建立索引则可以基于现有技术中任意方式实现,进而在后续检索使用等时使用。
[0081]
本发明实施例提供的一种文档处理方法,将已得到所包含的各个词的词权重的各待检索文档均加入至知识库中之前,还可以包括:
[0082]
对各待检索文档进行词频统计及词性标注,执行将已得到所包含的各个词的词权重的各待检索文档均加入至知识库中的步骤,以供基于词频统计、词性标记及所包含各个词的词权重在知识库中实现待检索文档的检索。
[0083]
为了进一步提高知识库检索的准确性,本技术实施例还会对所有需要检索的文档进行传统检索所需的词频统计、词性标注等;其中,词频统计是通过开源检索工具lucene得到每个词的词频(tf),用于lucene检索时计算问题与文档的相关性得分,词性标注通过标注每个词的词性,过滤掉虚词、副词等相关词性的词,实现停用词过滤。
[0084]
本发明实施例提供的一种文档处理方法,将已得到所包含的各个词的词权重的各待检索文档均加入至知识库中之后,还可以包括:
[0085]
获取需要实现检索的问题为当前问题,基于各待检索文档的词频统计、词性标记及所包含的各个词的词权重通过匹配式检索、交互式检索或者混合式检索在知识库中实现待检索文档的检索。
[0086]
为了进一步提高知识检索的准确性,本技术实施例将上述进行词频统计、词性标注以及词权重计算后的文档存储到知识库中作为待检索的文档,进而可通过匹配式检索、交互式检索或者混合式检索等语义检索方式,针对用户的提问在知识库中检索相关知识提供给用户;其中,匹配式检索利用lucene框架实现词的匹配,交互式检索利用bert-search模型进行语义检索,混合式检索同时考虑lucene与bert-search的相关性得分,并将两者进行加权求和,得到最终候选文档的检索结果。另外,基于词频统计及词性标注实现检索与现有技术中对应概念的含义相同,在此不再过多赘述。
[0087]
在一种具体实现方式中,本技术实施例提供的文档处理方法实现过程可以如图5所示,其中的候选文档即为需要检索的文档;可知本技术能够提高文档处理精度,利用deepct模型优化词权重,得到文档中每个词的权重信息,为意图识别等提供分析基础。
[0088]
本发明实施例还提供了一种文档处理装置,如图6所示,可以包括:
[0089]
文档确定模块11,用于:确定需要检索的各文档分别为待检索文档;
[0090]
权重确定模块12,用于:将各待检索文档分别输入至词权重模型中,得到词权重模型输出的相应待检索文档中各个词的词权重;其中,词权重模型为预先利用多个文本及相应文本中各个词的词权重训练得到的;
[0091]
文档存储模块13,用于:将已得到所包含的各个词的词权重的各待检索文档均加入至知识库中,以基于所包含的各个词的词权重在知识库中实现待检索文档的检索。
[0092]
本发明实施例提供的一种文档处理装置,还可以包括:
[0093]
模型训练模块,用于:获取包含有多个相似对的数据集;其中,单个相似对中包含单个问题及与该单个问题对应的多个文档的文档标题;对数据集中包含的各相似对做分词处理,并采用相似问题统计方式基于分词处理所得的结果确定各相似对包含的各问题中各个词的词权重;利用数据集中各相似对包含的各问题以及各问题中各个词的词权重作为训练语料,并利用训练语料训练得到相应的词权重模型。
[0094]
模型训练模块可以包括:
[0095]
确定单元,用于:按照下列公式确定各相似对包含的各问题中各个词的词权重:
[0096][0097]
其中,q
t
为问题q中的第t个词,s
qt
为q
t
的词权重,d为问题q所属相似对中包含的文档标题的集合,n及|d|均为集合d中文档标题的数量;
[0098]
训练单元,用于:利用训练语料对deepct模型进行训练,得到相应的词权重模型。
[0099]
本发明实施例提供的一种文档处理装置,还可以包括:
[0100]
预处理模块,用于:将各待检索文档分别输入至词权重模型中之前,对各待检索文档进行统一编码、去除无效字符及建立索引的操作。
[0101]
本发明实施例提供的一种文档处理装置,还可以包括:
[0102]
处理模块,用于:将已得到所包含的各个词的词权重的各待检索文档均加入至知识库中之前,对各待检索文档进行词频统计及词性标注,执行将已得到所包含的各个词的词权重的各待检索文档均加入至知识库中的步骤,以供基于词频统计、词性标记及所包含各个词的词权重在知识库中实现待检索文档的检索。
[0103]
本发明实施例提供的一种文档处理装置,还可以包括:
[0104]
检索模块,用于:将已得到所包含的各个词的词权重的各待检索文档均加入至知识库中之后,获取需要实现检索的问题为当前问题,基于各待检索文档的词频统计、词性标记及所包含的各个词的词权重通过匹配式检索、交互式检索或者混合式检索在知识库中实现待检索文档的检索。
[0105]
本发明实施例还提供了一种电子设备,可以包括:
[0106]
存储器,用于存储计算机程序;
[0107]
处理器,用于执行计算机程序时实现如上任一项文档处理方法的步骤。
[0108]
本发明实施例还提供了一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时可以实现如上任一项文档处理方法的步骤。
[0109]
需要说明的是,本发明实施例提供的一种文档处理装置、设备及存储介质中相关部分的说明请参见本发明实施例提供的一种文档处理方法中对应部分的详细说明,在此不再赘述。另外本发明实施例提供的上述技术方案中与现有技术中对应技术方案实现原理一致的部分并未详细说明,以免过多赘述。
[0110]
对所公开的实施例的上述说明,使本领域技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限
制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

技术特征:
1.一种文档处理方法,其特征在于,包括:确定需要检索的各文档分别为待检索文档;将各待检索文档分别输入至词权重模型中,得到所述词权重模型输出的相应待检索文档中各个词的词权重;其中,所述词权重模型为预先利用多个文本及相应文本中各个词的词权重训练得到的;将已得到所包含的各个词的词权重的各待检索文档均加入至知识库中,以供基于所包含的各个词的词权重在所述知识库中实现待检索文档的检索。2.根据权利要求1所述的方法,其特征在于,利用多个文本及相应文本中各个词的词权重训练得到词权重模型,包括:获取包含有多个相似对的数据集;其中,单个相似对中包含单个问题及与该单个问题对应的多个文档的文档标题;对所述数据集中包含的各相似对做分词处理,并采用相似问题统计方式基于分词处理所得的结果确定各相似对包含的各问题中各个词的词权重;利用所述数据集中各相似对包含的各问题以及各问题中各个词的词权重作为训练语料,并利用所述训练语料训练得到相应的词权重模型。3.根据权利要求2所述的方法,其特征在于,采用相似问题统计方式基于分词处理所得的结果确定各相似对包含的各问题中各个词的词权重,包括:按照下列公式确定各相似对包含的各问题中各个词的词权重:其中,q
t
为问题q中的第t个词,s
qt
为q
t
的词权重,d为问题q所属相似对中包含的文档标题的集合,n及|d|均为集合d中文档标题的数量。4.根据权利要求3所述的方法,其特征在于,利用所述训练语料训练得到相应的词权重模型,包括:利用所述训练语料对deepct模型进行训练,得到相应的词权重模型。5.根据权利要求4所述的方法,其特征在于,将各待检索文档分别输入至词权重模型中之前,还包括:对各待检索文档进行统一编码、去除无效字符及建立索引的操作。6.根据权利要求5所述的方法,其特征在于,将已得到所包含的各个词的词权重的各待检索文档均加入至知识库中之前,还包括:对各待检索文档进行词频统计及词性标注,执行将已得到所包含的各个词的词权重的各待检索文档均加入至知识库中的步骤,以供基于词频统计、词性标记及所包含各个词的词权重在所述知识库中实现待检索文档的检索。7.根据权利要求6所述的方法,其特征在于,将已得到所包含的各个词的词权重的各待检索文档均加入至知识库中之后,还包括:获取需要实现检索的问题为当前问题,基于各待检索文档的词频统计、词性标记及所包含的各个词的词权重通过匹配式检索、交互式检索或者混合式检索在所述知识库中实现待检索文档的检索。
8.一种文档处理装置,其特征在于,包括:文档确定模块,用于:确定需要检索的各文档分别为待检索文档;权重确定模块,用于:将各待检索文档分别输入至词权重模型中,得到所述词权重模型输出的相应待检索文档中各个词的词权重;其中,所述词权重模型为预先利用多个文本及相应文本中各个词的词权重训练得到的;文档存储模块,用于:将已得到所包含的各个词的词权重的各待检索文档均加入至知识库中,以基于所包含的各个词的词权重在所述知识库中实现待检索文档的检索。9.一种电子设备,其特征在于,包括:存储器,用于存储计算机程序;处理器,用于执行所述计算机程序时实现如权利要求1至7任一项所述文档处理方法的步骤。10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述文档处理方法的步骤。

技术总结
本发明公开了一种文档处理方法、装置、设备及存储介质,该方法包括:确定需要检索的各文档分别为待检索文档;将各待检索文档分别输入至词权重模型中,得到所述词权重模型输出的相应待检索文档中各个词的词权重;将已得到所包含的各个词的词权重的各待检索文档均加入至知识库中,以供基于所包含的各个词的词权重在所述知识库中实现待检索文档的检索;其中,所述词权重模型为预先利用多个文本及相应文本中各个词的词权重训练得到的。可见,对于需要检索的文档,本申请能够利用模型得到能够有效表示其中各个词的重要程度的词权重,进而在需要时基于得到的各个词的词权重实现相应文档的检索,能够有效提高信息检索准确率。能够有效提高信息检索准确率。能够有效提高信息检索准确率。


技术研发人员:王超 郑力 杨声春 游佳川 何诺 覃杨微 徐欣欣 王璇 刘馨杨 袁文忆
受保护的技术使用者:重庆农村商业银行股份有限公司
技术研发日:2021.12.08
技术公布日:2022/3/8

最新回复(0)