文本分类方法、装置、电子设备及存储介质与流程

专利查询2023-5-19  140



1.本公开涉及信息处理技术领域,尤其涉及一种文本分类方法、装置、电子设备及存储介质


背景技术:

2.随着语音识别技术的不断发展,如今语音智能系统已经深入应用到工业的各个方面,使得各个产品能够自然地和用户进行交互。
3.现有技术中,语音智能系统中识别用户意图主要采取管道结构,即用户—asr(automatic speech recognition,自动语音识别技术)系统—nlp(natural language processing,自然语言处理)系统,其中,asr系统将用户的音频转化为文本,然后nlp系统对转换出来的文本进行类别分类,通过确定文本的类别标签的方式得到用户的文本意图。由于nlp系统的输入是asr系统的输出,若asr系统将用户的语音转换错误,nlp系统的识别意图会与原始用户的真实意图相差甚远,使得nlp系统的鲁棒性不高,导致用户的语音意图判断结果不准确。


技术实现要素:

4.本公开提供一种文本分类方法、装置、电子设备及存储介质,用以解决现有技术中由于nlp系统的鲁棒性不高导致语音意图判断准确性低的技术问题,实现提高系统的鲁棒性和语音意图准确性的目的。
5.第一方面,本公开提供一种文本分类方法,包括:
6.获取待处理文本;其中,所述待处理文本为待识别语音数据通过语音识别系统转换得到的文本;
7.将所述待处理文本输入预先训练好的文本分类模型中,获取所述待处理文本在多个类别上的预测概率值;
8.选取所述预测概率值中的最大预测概率值,将所述最大预测概率值对应的类别确定为所述待处理文本的类别;
9.其中,所述文本分类模型是根据三元组样本数据进行训练得到的,其中,所述三元组样本数据包括样本语音数据的转换数据、样本语音数据的类别标签数据以及所述样本语音数据的语音识别结果数据;
10.所述文本分类模型的损失函数值是根据交叉熵损失值以及相对损失值确定的,其中,所述相对损失值是根据第一预测概率分布值与第二预测概率分布值确定的;所述第一预测概率分布值是基于所述样本语音数据的转换数据得到的,所述第二预测概率分布值是基于所述样本语音数据的语音识别结果数据得到的。
11.进一步地,根据本公开提供的一种文本分类方法,在所述获取待处理文本之前,方法还包括:
12.在文本分类模型中的参数为第一参数值的情况下,将所述样本语音数据的转换数
据输入所述文本分类模型,得到第一预测概率分布值;其中,所述第一参数值为文本分类模型在训练过程中所使用参数值中的任意一个;
13.根据所述第一预测概率分布值以及所述样本语音数据的类别标签数据,计算交叉熵损失值;
14.在文本分类模型中的参数为第一参数值的情况下,将所述样本语音数据的语音识别结果数据输入所述文本分类模型,得到第二预测概率分布值;
15.根据所述第一预测概率分布值与所述第二预测概率分布值计算相对损失值;
16.根据所述交叉熵损失值与所述相对损失值,在文本分类模型的参数为第一参数值的情况下计算所述文本分类模型的损失函数值;
17.根据所述损失函数值,从所述文本分类模型在训练过程中所使用的多个参数值中确定所述文本分类模型的最终值。
18.进一步地,根据本公开提供的一种文本分类方法,所述根据所述第一预测概率分布值与所述第二预测概率分布值计算相对损失值,包括:
19.根据所述第一预测概率分布值与所述第二预测概率分布值计算kl散度值;
20.将所述kl散度值作为所述相对损失值。
21.进一步地,根据本公开提供的一种文本分类方法,所述根据所述交叉熵损失值与所述相对损失值,在文本分类模型的参数为第一参数值的情况下计算文本分类模型的损失函数值,具体包括:
22.loss=β
·
ce(p(trans))+(1-β)kl(p(trans),p(asr))
23.其中,loss表示所述文本分类模型的损失函数值;β表示所述文本分类模型的超参数;ce(p(trans))表示所述交叉熵损失值,p(trans)表示所述第一预测概率分布值;kl(p(trans),p(asr))表示所述相对损失值,p(asr)表示所述第二预测概率分布值。
24.进一步地,根据本公开提供的一种文本分类方法,在所述在文本分类模型中的参数为第一参数值的情况下,将所述样本语音数据的转换数据输入所述文本分类模型之前,方法还包括:
25.获取样本语音数据;
26.播放所述样本语音数据,监听并记录所述样本语音数据,得到所述样本语音数据的转换数据以及类别标签数据;
27.将所述样本语音数据输入语音识别系统中,得到所述样本语音数据的语音识别结果数据。
28.进一步地,根据本公开提供的一种文本分类方法,所述文本分类模型包括嵌入层、卷积层、池化层和全连接层;
29.所述将所述待处理文本输入预先训练好的文本分类模型中,获取所述待处理文本在多个类别上的预测概率值,包括:
30.将所述待处理文本输入到所述嵌入层中进行词嵌入处理,获取所述待处理文本的表征矩阵;
31.将所述表征矩阵输入所述卷积层中进行卷积处理,获取卷积结果;
32.将所述卷积结果输入所述池化层中进行最大池化处理,获取高维特征向量;
33.将所述高维特征向量输入所述全连接层中,计算所述高维特征向量在多个类别上
的预测概率值。
34.第二方面,本公开还提供一种文本分类装置,包括:
35.第一获取模块,用于获取待处理文本;其中,所述待处理文本为待识别语音数据通过语音识别系统转换得到的文本;
36.第二获取模块,用于将所述待处理文本输入预先训练好的文本分类模型中,获取所述待处理文本在多个类别上的预测概率值;
37.选取与确定模块,用于选取所述预测概率值中的最大预测概率值,将所述最大预测概率值对应的类别确定为所述待处理文本的类别;
38.其中,所述文本分类模型是根据三元组样本数据进行训练得到的,其中,所述三元组样本数据包括样本语音数据的转换数据、样本语音数据的类别标签数据以及所述样本语音数据的语音识别结果数据;
39.所述文本分类模型的损失函数值是根据交叉熵损失值以及相对损失值确定的,其中,所述相对损失值是根据第一预测概率分布值与第二预测概率分布值确定的;所述第一预测概率分布值是基于所述样本语音数据的转换数据得到的,所述第二预测概率分布值是基于所述样本语音数据的语音识别结果数据得到的。
40.进一步地,根据本公开提供的文本分类装置,所述装置还包括训练模块,所述训练模块用于:
41.在文本分类模型中的参数为第一参数值的情况下,将所述样本语音数据的转换数据输入所述文本分类模型,得到第一预测概率分布值;其中,所述第一参数值为文本分类模型在训练过程中所使用参数值中的任意一个;
42.根据所述第一预测概率分布值以及所述样本语音数据的类别标签数据,计算交叉熵损失值;
43.在文本分类模型中的参数为第一参数值的情况下,将所述样本语音数据的语音识别结果数据输入所述文本分类模型,得到第二预测概率分布值;
44.根据所述第一预测概率分布值与所述第二预测概率分布值计算相对损失值;
45.根据所述交叉熵损失值与所述相对损失值,在文本分类模型的参数为第一参数值的情况下计算所述文本分类模型的损失函数值;
46.根据所述损失函数值,从所述文本分类模型在训练过程中所使用的多个参数值中确定所述文本分类模型的最终值。
47.第三方面,本公开还提供一种电子设备,包括:
48.处理器、存储器和总线,其中,
49.所述处理器和所述存储器通过所述总线完成相互间的通信;
50.所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令能够执行如上任一项中所述文本分类方法的步骤。
51.第四方面,本公开还提供一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行如上所述文本分类方法的步骤。
52.本公开提供的一种文本分类方法、装置、电子设备及存储介质,所述方法通过将获取的待处理文本输入预先训练好的文本分类模型中,获取所述待处理文本在多个类别上的
预测概率值;选取所述预测概率值中的最大预测概率值,将所述最大预测概率值对应的类别确定为所述待处理文本的类别,其中,文本分类模型是根据三元组样本数据训练得到的,且该模型的损失函数值是根据交叉熵损失值以及相对损失值确定的。本公开通过将样本语音识别的识别结果作为扰动样本对文本分类模型进行训练,能够提高nlp系统的鲁棒性,提高语音意图判断的准确性,提升用户的体验。
附图说明
53.为了更清楚地说明本公开或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
54.图1是本公开提供的一种文本分类方法的流程示意图;
55.图2是本公开提供的文本分类模型的训练过程的流程示意图;
56.图3是本公开提供的一种获取样本数据的流程示意图;
57.图4是本公开提供的一种文本分类装置的结构示意图;
58.图5是本公开提供的电子设备的结构示意图。
具体实施方式
59.为使本公开的目的、技术方案和优点更加清楚,下面将结合本公开中的附图,对本公开中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本公开一部分实施例,而不是全部的实施例。基于本公开中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本公开保护的范围。
60.图1为本公开提供的文本分类方法,如图1所示,本公开提供的文本分类方法,包括以下步骤:
61.步骤101:获取待处理文本;其中,所述待处理文本为待识别语音数据通过语音识别系统转换得到的文本;
62.步骤102:将所述待处理文本输入预先训练好的文本分类模型中,获取所述待处理文本在多个类别上的预测概率值;
63.步骤103:选取所述预测概率值中的最大预测概率值,将所述最大预测概率值对应的类别确定为所述待处理文本的类别;
64.其中,所述文本分类模型是根据三元组样本数据进行训练得到的,其中,所述三元组样本数据包括样本语音数据的转换数据、样本语音数据的类别标签数据以及所述样本语音数据的语音识别结果数据;
65.所述文本分类模型的损失函数值是根据交叉熵损失值以及相对损失值确定的,其中,所述相对损失值是根据第一预测概率分布值与第二预测概率分布值确定的;所述第一预测概率分布值是基于所述样本语音数据的转换数据得到的,所述第二预测概率分布值是基于所述样本语音数据的语音识别结果数据得到的。
66.具体地,损失函数(loss function)为将随机事件或其有关随机变量的取值映射为非负实数以表示该随机事件的“风险”或“损失”的函数。在应用中,损失函数通常作为学
习准则与优化问题相联系,即通过最小化损失函数求解和评估模型。
67.交叉熵(cross entropy)是信息论中的一个重要概念,主要用于度量两个概率分布间的差异性信息,语言模型的性能通常用交叉熵来衡量。
68.在步骤101中,获取待处理文本是指语音场景下,待识别语音数据通过语音识别系统转换得到的文本,需要说明的是,待处理文本用于判断语音识别结果的真实意图。
69.在步骤102中,将待处理文本输入预先训练好的文本分类模型中,得到待处理文本在多个类别上的预测概率值,如待处理文本为“我想查看今年童装秋季最新款”,输入文本分类模型中,得到在男装类别上的预测概率值为0.2,在女装类别上的预测概率值为0.1,在童装类别上的预测概率值为0.7,其中,所述文本分类模型是根据三元组样本数据进行训练得到的,三元组样本数据包括样本语音数据的转换数据、样本语音数据的类别标签数据以及样本语音数据的语音识别结果数据;文本分类模型的损失函数值是根据交叉熵损失值以及相对损失值确定的。需要说明的是,若用户在目标明确的场景下,多个类别可以设置为浏览、选购、下单、完成等类别,若用户在随意浏览的场景下,也可以设置为男装、女装、童装等,可以根据实际需要进行设定,在此不作具体限定。
70.在步骤103中,根据步骤102中得到的多个类别上的预测概率值选取其中最大预测概率值,将最大预测概率值对应的类别确定为待处理文本的类别,如上述得到的预测概率值中,童装类别的预测概率值最大,将童装确定为待处理文本的类别,也就是说,用户的真实意图是想浏览童装。
71.本公开实施例中,通过预先训练好的文本分类模型对待处理文本的处理实现用户真实意图的判断,其中,文本分类模型根据三元组样本数据训练得到的,三元组样本数据包括样本语音数据的转换数据、样本语音数据的类别标签数据以及样本语音数据的语音识别结果数据,将样本语音数据的转换数据作为原始样本,asr系统得到的语音识别结果数据作为扰动样本,而且该模型的损失函数值是根据交叉熵损失值和相对损失值确定的。本公开提供的方法能够提高nlp系统的鲁棒性,提高语音意图判断的准确性,提升用户体验。
72.在本公开的一个实施例中,如图2所示,在所述获取待处理文本之前,方法还包括:
73.在文本分类模型中的参数为第一参数值的情况下,将所述样本语音数据的转换数据输入所述文本分类模型,得到第一预测概率分布值;其中,所述第一参数值为文本分类模型在训练过程中所使用参数值中的任意一个;
74.根据所述第一预测概率分布值以及所述样本语音数据的类别标签数据,计算交叉熵损失值;
75.在文本分类模型中的参数为第一参数值的情况下,将所述样本语音数据的语音识别结果数据输入所述文本分类模型,得到第二预测概率分布值;
76.根据所述第一预测概率分布值与所述第二预测概率分布值计算相对损失值;
77.根据所述交叉熵损失值与所述相对损失值,在文本分类模型的参数为第一参数值的情况下计算所述文本分类模型的损失函数值;
78.根据所述损失函数值,从所述文本分类模型在训练过程中所使用的多个参数值中确定所述文本分类模型的最终值。
79.具体地,相对损失值是指用来分析两个预测概率分布值之间差异得到的数值。
80.在本公开实施例中,需要确定出文本分类模型的最终参数值,得到最终的文本分
类模型,完成文本分类模型的训练。其中文本分类模型的训练分两步进行:第一步,在第一参数值为θ的情况下,将样本语音数据的转换数据输入文本分类模型中,得到样本语音数据的转换数据的第一预测概率分布值p(trans),根据样本语音数据的转换数据的第一预测概率分布值和类别标签数据计算得到交叉熵损失值label
loss
;第二步,在同样的第一参数值为θ的情况下,将asr系统转换得到的语音识别结果数据输入文本分类模型中,得到第二预测概率分布值p(asr),根据第一预测概率分布值p(trans)和第二预测概率分布值p(asr)计算得到相对损失值,最后根据得到的交叉熵损失值和相对损失值输入文本分类模型的损失函数计算公式中,得到模型的损失函数值。调整第一参数值θ的大小,重复上述操作,当得到的损失函数值满足预设要求时,则将损失函数值对应的参数值确定为文本分类模型的最终值,如选用最小损失函数值对应的参数值确定为文本分类模型的参数值,得到最终的文本分类模型。
81.需要说明的是,文本分类模型可以选用textcnn模型,也可以选用其他的模型作为文本分类模型,可以根据实际需要进行选用,在此不作具体限定。
82.本公开实施例中,通过在获取待处理文本之前完成文本分类模型的训练,具体根据样本语音数据的转换数据、样本语句的类别标签数据以及样本语音数据的语音识别结果数据对模型进行训练,得到文本分类模型。本公开实施例提供的方法提高了文本分类模型的鲁棒性,提高用户语音意图判断的准确性,提升用户体验。
83.在本公开的另一个实施例中,所述根据所述第一预测概率分布值与所述第二预测概率分布值计算相对损失值,包括:
84.根据所述第一预测概率分布值与所述第二预测概率分布值计算kl散度值;
85.将所述kl散度值作为所述相对损失值。
86.具体地,kl(全称kullback-leibler)散度,又称为相对熵,是两个概率分布间差异的非对称性度量。
87.在本公开实施例中,根据第一预测概率分布值和第二预测概率分布值计算kl散度,将kl散度作为相对损失值。其中,度,将kl散度作为相对损失值。其中,可以将第一预测概率分布值p(trans)和第二预测概率分布值p(asr)输入该公式中,得到相对损失值。
88.本公开实施例中,将kl散度值作为相对损失值,能够量化出第一预测概率分布值和第二预测概率分布值之间的差异,拉近两个预测概率分布,使其具有相同的预测结果,保证文本分类模型的鲁棒性。
89.在本公开的一个实施例中,所述根据所述交叉熵损失值与所述相对损失值,在文本分类模型的参数为第一参数值的情况下计算文本分类模型的损失函数值,具体包括:
90.loss=β
·
ce(p(trans))+(1-β)kl(p(trans),p(asr))
91.其中,loss表示所述文本分类模型的损失函数值;β表示所述文本分类模型的超参数;ce(p(trans))表示所述交叉熵损失值,p(trans)表示所述第一预测概率分布值;kl(p(trans),p(asr))表示所述相对损失值,p(asr)表示所述第二预测概率分布值。
92.具体地,超参数是在开始学习过程之前设置的参数,而不是通过训练得到的参数数据。
93.在本公开实施例中,文本分类模型的损失函数具体可以通过loss=β
·
label
loss
+
(1-β)kl
loss
推导得到上述公式,其中,交叉熵损失函数值可以通过计算得到,其中,l表示类别标签的总数,y表示预测类别标签,x表示输入样本语音数据的转换数据的向量,θ表示模型的第一参数值。表示样本语音数据的转换数据的真实分布值,p表示样本语音数据的转换数据的预测分布值。
94.本公开实施例中,通过上述具体的表征公式计算得到该文本分类模型的损失函数值,根据损失函数值调整文本分类模型的参数值,确定出文本分类模型的最优参数值。
95.在本公开的另一个实施例中,在所述在文本分类模型中的参数为第一参数值的情况下,将所述样本语音数据的转换数据输入所述文本分类模型之前,方法还包括:
96.获取样本语音数据;
97.播放所述样本语音数据,监听并记录所述样本语音数据,得到所述样本语音数据的转换数据以及类别标签数据;
98.将所述样本语音数据输入语音识别系统中,得到所述样本语音数据的语音识别结果数据。
99.具体地,样本语音数据是指语音场景下的样本数据。
100.在本公开实施例中,将获取语音场景下的样本语音数据进行播放,人工进行监听并记录监听结果,将通过人工标注、监听转写得到的数据设定为转换数据。整体的训练样本数据的构建如图3所示,首先获取一批样本语音数据,人工监听,并编写听到的样本语音数据,得到人工转写数据(trans),同时,人工在转写数据的时候也需要标注听到的样本语音数据对应的类别标签(label),这里的标签是转写文本对应的标签;然后,利用asr系统对样本语音数据进行识别,得到语音识别结果数据;最后,将人工转写数据、语音识别结果数据和类别标签数据组成对抗三元组数据,即(trans,asr,label)。另外,asr系统对一段样本语音数据的识别可能会得到n个结果,在此情况下,可以看作是同一个trans和label对应多个语音识别结果数据,这样得到多个三元组数据。需要说明的是,本公开实施例中,样本语音数据的人工转写数据设为天然的原始样本,asr系统的语音识别结果数据设为扰动样本。具体样本的设定可以根据实际需要进行设定,在此不作具体限定。
101.本公开实施例中通过将获取样本语音数据人工监听并记录得到人工转写数据作为原始样本,asr系统对样本语音数据的语音识别结果数据作为扰动样本,对文本分类模型进行训练,确定该模型的最终参数值,提高模型的鲁棒性和语音意图判断的准确率。
102.在本公开的另一个实施例中,所述文本分类模型包括嵌入层、卷积层、池化层和全连接层;
103.所述将所述待处理文本输入预先训练好的文本分类模型中,获取所述待处理文本在多个类别上的预测概率值,包括:
104.将所述待处理文本输入到所述嵌入层中进行词嵌入处理,获取所述待处理文本的表征矩阵;
105.将所述表征矩阵输入所述卷积层中进行卷积处理,获取卷积结果;
106.将所述卷积结果输入所述池化层中进行最大池化处理,获取高维特征向量;
107.将所述高维特征向量输入所述全连接层中,计算所述高维特征向量在多个类别上
的预测概率值。
108.具体地,卷积(convolution)是通过两个函数f和g生成第三个函数的一种数学算子,表征函数f与g经过翻转和平移的重叠部分函数值乘积对重叠长度的积分。最大值池化(max pooling)处理能够更好保留纹理特征。
109.在本公开实施例中,将获取到的待处理文本输入预先训练好的文本分类模型中,首先嵌入层将待处理文本中的字转化为embedding表征,得到待处理文本的表征矩阵,然后卷积层对得到的表征矩阵按照字的方向进行卷积处理,得到卷积结果,池化层对卷积结果进行最大池化处理,获得高维特征向量,最后将高维特征向量接入全连接层中,计算高维特征向量在每个类别上的预测概率值,将多个预测概率值输出,最终将最大预测概率值对应的类别确定为待处理文本的类别。
110.本公开实施例中,通过文本分类模型的嵌入层、卷积层、池化层和全连接层对待处理文本的层级处理,最终得到待处理文本在多个类别上的预测概率值,提高了文本分类模型的精确度和语音意图结果的准确性。
111.在本公开的一个实施例中,文本分类模型训练的整个流程,包括:
112.在语音场景下,样本语音数据的人工转写数据作为天然的原始样本,asr系统的识别结果数据作为扰动样本。训练样本数据的构建过程为:首先,获取一批样本语音数据,人工监听,并编写听到的样本语音数据,得到人工转写数据(trans),同时,人工在转写数据的时候也需要标注听到的样本语音数据对应的类别标签(label),这里的标签是转写文本对应的标签;然后,利用asr系统对样本语音数据进行识别,得到语音识别结果数据(asr);最后,将人工转写数据、语音识别结果数据和类别标签数据组成对抗三元组数据,即(trans,asr,label)。另外,asr系统对一段样本语音数据的识别可能会得到n个结果,在此情况下,可以看作是同一个trans和label对应多个asr,这样得到多个三元组数据。
113.在上述得到训练样本数据之后,进行文本分类模型的训练。训练模型分为两步进行:第一步,在第一参数值为θ的情况下,选取基础模型,如textcnn,将样本语音数据的转换数据输入基础模型中,得到样本语音数据的转换数据的第一预测概率分布值p(trans),根据样本语音数据的转换数据的第一预测概率分布值和类别标签数据计算得到交叉熵损失值label
loss
;第二步,在同样的第一参数值为θ的设置下,再将asr系统转换得到的语音识别结果数据输入基础模型中,得到第二预测概率分布值p(asr),同时,为了拉近第一预测概率分布值p(trans)和第二预测概率分布值p(asr),使其接近相同,根据第一预测概率分布值p(trans)和第二预测概率分布值p(asr)计算kl散度作为相对损失值,最后根据得到的交叉熵损失值和相对损失值得到模型的损失函数值:
114.loss=β
·
label
loss
+(1-β)kl
loss
115.=β
·
ce(p(trans))+(1-β)kl(p(trans),p(asr))
116.其中,β是模型超参数,ce表示交叉熵,kl表示kl散度。
117.然后调整第一参数值θ的大小,重复上述操作,当得到的损失函数值满足预设要求时,则将损失函数值对应的参数值确定为基础模型的最终值,得到最终的文本分类模型。
118.在完成文本分类模型的训练后,将待处理文本输入训练完成的文本分类模型中,首先将待处理文本的各个字转化为embedding表征,得到待处理文本的表征矩阵,将表征矩阵按照字的方向进行卷积操作,进一步对卷积操作的结果进行最大池化处理,得到高维特
征向量,将高维特征向量连接到softmax层,输出高维特征向量在每个类别标签上的预测概率值,将最大预测概率值对应的类别标签确定为最终的类别。需要说明的是,在实际应用场景中,由于不存在trans数据,且不需要计算损失函数值,因此,直接将asr系统转换过来的文本输入文本分类模型中,获取在每个类别上的预测概率值,将最大预测概率值对应的类别确定为该文本的类别,便得到文本意图。
119.图4为本公开提供的一种文本分类装置,如图4所示,本公开提供的文本分类装置,包括:
120.第一获取模块401,用于获取待处理文本;其中,所述待处理文本为待识别语音数据通过语音识别系统转换得到的文本;
121.第二获取模块402,用于将所述待处理文本输入预先训练好的文本分类模型中,获取所述待处理文本在多个类别上的预测概率值;
122.选取与确定模块403,用于选取所述预测概率值中的最大预测概率值,将所述最大预测概率值对应的类别确定为所述待处理文本的类别;
123.其中,所述文本分类模型是根据三元组样本数据进行训练得到的其中,所述三元组样本数据包括样本语音数据的转换数据、样本语音数据的类别标签数据以及所述样本语音数据的语音识别结果数据;
124.所述文本分类模型的损失函数值是根据交叉熵损失值以及相对损失值确定的,其中,所述相对损失值是根据第一预测概率分布值与第二预测概率分布值确定的;所述第一预测概率分布值是基于所述样本语音数据的转换数据得到的,所述第二预测概率分布值是基于所述样本语音数据的语音识别结果数据得到的。
125.本公开实施例提供的文本分类装置,能够提高nlp系统的鲁棒性,提高语音意图结果的准确性,提升用户体验。
126.进一步,所述装置还包括训练模块,所述训练模块用于:
127.在文本分类模型中的参数为第一参数值的情况下,将所述样本语音数据的转换数据输入所述文本分类模型,得到第一预测概率分布值;其中,所述第一参数值为文本分类模型在训练过程中所使用参数值中的任意一个;
128.根据所述第一预测概率分布值以及所述样本语音数据的类别标签数据,计算交叉熵损失值;
129.在文本分类模型中的参数为第一参数值的情况下,将所述样本语音数据的语音识别结果数据输入所述文本分类模型,得到第二预测概率分布值;
130.根据所述第一预测概率分布值与所述第二预测概率分布值计算相对损失值;
131.根据所述交叉熵损失值与所述相对损失值,在文本分类模型的参数为第一参数值的情况下计算所述文本分类模型的损失函数值;
132.根据所述损失函数值,从所述文本分类模型在训练过程中所使用的多个参数值中确定所述文本分类模型的最终值。
133.进一步,所述训练模块还用于:
134.根据所述第一预测概率分布值与所述第二预测概率分布值计算kl散度值;
135.将所述kl散度值作为所述相对损失值。
136.进一步,所述训练模块还用于:
137.所述根据所述交叉熵损失值与所述相对损失值,在文本分类模型的参数为第一参数值的情况下计算文本分类模型的损失函数值,具体包括:
138.loss=β
·
ce(p(trans))+(1-β)kl(p(trans),p(asr))
139.其中,loss表示所述文本分类模型的损失函数值;β表示所述文本分类模型的超参数;ce(p(trans))表示所述交叉熵损失值,p(trans)表示所述第一预测概率分布值;kl(p(trans),p(asr))表示所述相对损失值,p(asr)表示所述第二预测概率分布值。
140.进一步,所述装置在所述在文本分类模型中的参数为第一参数值的情况下,将所述样本语音数据的转换数据输入所述文本分类模型之前,还用于:
141.获取样本语音数据;
142.播放所述样本语音数据,监听并记录所述样本语音数据,得到所述样本语音数据的转换数据以及类别标签数据;
143.将所述样本语音数据输入语音识别系统中,得到所述样本语音数据的语音识别结果数据。
144.进一步,所述装置还用于:
145.所述文本分类模型包括嵌入层、卷积层、池化层和全连接层;
146.所述将所述待处理文本输入预先训练好的文本分类模型中,获取所述待处理文本在多个类别上的预测概率值,包括:
147.将所述待处理文本输入到所述嵌入层中进行词嵌入处理,获取所述待处理文本的表征矩阵;
148.将所述表征矩阵输入所述卷积层中进行卷积处理,获取卷积结果;
149.将所述卷积结果输入所述池化层中进行最大池化处理,获取高维特征向量;
150.将所述高维特征向量输入所述全连接层中,计算所述高维特征向量在多个类别上的预测概率值。
151.由于本公开实施例所述装置与上述实施例所述方法的原理相同,对于更加详细的解释内容在此不再赘述。
152.图5为本公开实施例提供的电子设备实体结构示意图,如图5所示,本公开提供一种电子设备,包括:处理器(processor)501、存储器(memory)502和总线503;
153.其中,处理器501、存储器502通过总线503完成相互间的通信;
154.处理器501用于调用存储器502中的程序指令,以执行上述各方法实施例所提供的方法,例如包括:获取待处理文本;其中,所述待处理文本为待识别语音数据通过语音识别系统转换得到的文本;将所述待处理文本输入预先训练好的文本分类模型中,获取所述待处理文本在多个类别上的预测概率值;选取所述预测概率值中的最大预测概率值,将所述最大预测概率值对应的类别确定为所述待处理文本的类别;其中,所述文本分类模型是根据三元组样本数据进行训练得到的其中,所述三元组样本数据包括样本语音数据的转换数据、样本语音数据的类别标签数据以及所述样本语音数据的语音识别结果数据;所述文本分类模型的损失函数值是根据交叉熵损失值以及相对损失值确定的,其中,所述相对损失值是根据第一预测概率分布值与第二预测概率分布值确定的;所述第一预测概率分布值是基于所述样本语音数据的转换数据得到的,所述第二预测概率分布值是基于所述样本语音数据的语音识别结果数据得到的。
155.本实施例提供一种非暂态计算机可读存储介质,非暂态计算机可读存储介质存储计算机指令,计算机指令使所述计算机执行上述各方法实施例所提供的方法,例如包括:获取待处理文本;其中,所述待处理文本为待识别语音数据通过语音识别系统转换得到的文本;将所述待处理文本输入预先训练好的文本分类模型中,获取所述待处理文本在多个类别上的预测概率值;选取所述预测概率值中的最大预测概率值,将所述最大预测概率值对应的类别确定为所述待处理文本的类别;其中,所述文本分类模型是根据三元组样本数据进行训练得到的其中,所述三元组样本数据包括样本语音数据的转换数据、样本语音数据的类别标签数据以及所述样本语音数据的语音识别结果数据;所述文本分类模型的损失函数值是根据交叉熵损失值以及相对损失值确定的,其中,所述相对损失值是根据第一预测概率分布值与第二预测概率分布值确定的;所述第一预测概率分布值是基于所述样本语音数据的转换数据得到的,所述第二预测概率分布值是基于所述样本语音数据的语音识别结果数据得到的。
156.本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:rom、ram、磁碟或者光盘等各种可以存储程序代码的介质。
157.最后应说明的是:以上实施例仅用以说明本公开的技术方案,而非对其限制;尽管参照前述实施例对本公开进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本公开各实施例技术方案的精神和范围。

技术特征:
1.一种文本分类方法,其特征在于,包括:获取待处理文本;其中,所述待处理文本为待识别语音数据通过语音识别系统转换得到的文本;将所述待处理文本输入预先训练好的文本分类模型中,获取所述待处理文本在多个类别上的预测概率值;选取所述预测概率值中的最大预测概率值,将所述最大预测概率值对应的类别确定为所述待处理文本的类别;其中,所述文本分类模型是根据三元组样本数据进行训练得到的,其中,所述三元组样本数据包括样本语音数据的转换数据、样本语音数据的类别标签数据以及所述样本语音数据的语音识别结果数据;所述文本分类模型的损失函数值是根据交叉熵损失值以及相对损失值确定的,其中,所述相对损失值是根据第一预测概率分布值与第二预测概率分布值确定的;所述第一预测概率分布值是基于所述样本语音数据的转换数据得到的,所述第二预测概率分布值是基于所述样本语音数据的语音识别结果数据得到的。2.根据权利要求1所述的文本分类方法,其特征在于,在所述获取待处理文本之前,方法还包括:在文本分类模型中的参数为第一参数值的情况下,将所述样本语音数据的转换数据输入所述文本分类模型,得到第一预测概率分布值;其中,所述第一参数值为文本分类模型在训练过程中所使用参数值中的任意一个;根据所述第一预测概率分布值以及所述样本语音数据的类别标签数据,计算交叉熵损失值;在文本分类模型中的参数为第一参数值的情况下,将所述样本语音数据的语音识别结果数据输入所述文本分类模型,得到第二预测概率分布值;根据所述第一预测概率分布值与所述第二预测概率分布值计算相对损失值;根据所述交叉熵损失值与所述相对损失值,在文本分类模型的参数为第一参数值的情况下计算所述文本分类模型的损失函数值;根据所述损失函数值,从所述文本分类模型在训练过程中所使用的多个参数值中确定所述文本分类模型的最终值。3.根据权利要求2所述的文本分类方法,其特征在于,所述根据所述第一预测概率分布值与所述第二预测概率分布值计算相对损失值,包括:根据所述第一预测概率分布值与所述第二预测概率分布值计算kl散度值;将所述kl散度值作为所述相对损失值。4.根据权利要求2所述的文本分类方法,其特征在于,所述根据所述交叉熵损失值与所述相对损失值,在文本分类模型的参数为第一参数值的情况下计算文本分类模型的损失函数值,具体包括:loss=β
·
ce(p(trans))+(1-β)kl(p(trans),p(asr))其中,loss表示所述文本分类模型的损失函数值;β表示所述文本分类模型的超参数;ce(p(trans))表示所述交叉熵损失值,p(trans)表示所述第一预测概率分布值;kl(p(trans),p(asr))表示所述相对损失值,p(asr)表示所述第二预测概率分布值。
5.根据权利要求2所述的文本分类方法,其特征在于,在所述在文本分类模型中的参数为第一参数值的情况下,将所述样本语音数据的转换数据输入所述文本分类模型之前,方法还包括:获取样本语音数据;播放所述样本语音数据,监听并记录所述样本语音数据,得到所述样本语音数据的转换数据以及类别标签数据;将所述样本语音数据输入语音识别系统中,得到所述样本语音数据的语音识别结果数据。6.根据权利要求1所述的文本分类方法,其特征在于,所述文本分类模型包括嵌入层、卷积层、池化层和全连接层;所述将所述待处理文本输入预先训练好的文本分类模型中,获取所述待处理文本在多个类别上的预测概率值,包括:将所述待处理文本输入到所述嵌入层中进行词嵌入处理,获取所述待处理文本的表征矩阵;将所述表征矩阵输入所述卷积层中进行卷积处理,获取卷积结果;将所述卷积结果输入所述池化层中进行最大池化处理,获取高维特征向量;将所述高维特征向量输入所述全连接层中,计算所述高维特征向量在多个类别上的预测概率值。7.一种文本分类装置,其特征在于,包括:第一获取模块,用于获取待处理文本;其中,所述待处理文本为待识别语音数据通过语音识别系统转换得到的文本;第二获取模块,用于将所述待处理文本输入预先训练好的文本分类模型中,获取所述待处理文本在多个类别上的预测概率值;选取与确定模块,用于选取所述预测概率值中的最大预测概率值,将所述最大预测概率值对应的类别确定为所述待处理文本的类别;其中,所述文本分类模型是根据三元组样本数据进行训练得到的,其中,所述三元组样本数据包括样本语音数据的转换数据、样本语音数据的类别标签数据以及所述样本语音数据的语音识别结果数据;所述文本分类模型的损失函数值是根据交叉熵损失值以及相对损失值确定的,其中,所述相对损失值是根据第一预测概率分布值与第二预测概率分布值确定的;所述第一预测概率分布值是基于所述样本语音数据的转换数据得到的,所述第二预测概率分布值是基于所述样本语音数据的语音识别结果数据得到的。8.根据权利要求7所述的文本分类装置,其特征在于,所述装置还包括训练模块,所述训练模块用于:在文本分类模型中的参数为第一参数值的情况下,将所述样本语音数据的转换数据输入所述文本分类模型,得到第一预测概率分布值;其中,所述第一参数值为文本分类模型在训练过程中所使用参数值中的任意一个;根据所述第一预测概率分布值以及所述样本语音数据的类别标签数据,计算交叉熵损失值;
在文本分类模型中的参数为第一参数值的情况下,将所述样本语音数据的语音识别结果数据输入所述文本分类模型,得到第二预测概率分布值;根据所述第一预测概率分布值与所述第二预测概率分布值计算相对损失值;根据所述交叉熵损失值与所述相对损失值,在文本分类模型的参数为第一参数值的情况下计算所述文本分类模型的损失函数值;根据所述损失函数值,从所述文本分类模型在训练过程中所使用的多个参数值中确定所述文本分类模型的最终值。9.一种电子设备,其特征在于,包括:处理器、存储器和总线,其中,所述处理器和所述存储器通过所述总线完成相互间的通信;所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令能够执行如权利要求1至6中任一项所述文本分类方法的步骤。10.一种非暂态计算机可读存储介质,其特征在于,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行如权利要求1至6中任一项所述文本分类方法的步骤。

技术总结
本公开提供一种文本分类方法、装置、电子设备及存储介质,所述方法:获取待处理文本;将所述待处理文本输入预先训练好的文本分类模型中,获取所述待处理文本在多个类别上的预测概率值;选取所述预测概率值中的最大预测概率值,将所述最大预测概率值对应的类别确定为所述待处理文本的类别;其中,所述文本分类模型是根据三元组样本数据进行训练得到的,所述文本分类模型的损失函数值是根据交叉熵损失值以及相对损失值确定的。本公开提供的文本分类方法能够提高NLP系统的鲁棒性,提高语音意图的准确性,提升用户的体验。提升用户的体验。提升用户的体验。


技术研发人员:王泽勋 陈蒙 乐雨泉 赵宇明 冯明超
受保护的技术使用者:京东科技信息技术有限公司
技术研发日:2021.12.08
技术公布日:2022/3/8

最新回复(0)