本发明涉及语音识别,尤其涉及一种基于伪标注与课程学习的语音识别数据增强方法、语音识别方法及相关设备。
背景技术:
1、在语音识别领域,受限于数据的稀缺特性,针对低资源语言所开发的语音识别系统很难具备优异性能。数据增强技术是解决低资源语言语音识别数据稀缺问题的有效方法,通常包括语音合成、声音转换、伪标注等技术手段。其中,伪标注技术是一种半监督学习方法,其核心思想是利用模型自身的预测结果作为标签(伪标签)来进一步训练模型。在语音识别领域,许多工作利用伪标注技术实现性能提升。
2、但是,大多数伪标注技术工作均在探索如何确保伪标注结果的高质量特性,而未能发掘伪标注本身所具备的潜力。
技术实现思路
1、为了解决低资源语言语音识别数据稀缺问题以及为了提升语音识别的准确率,本发明提供一种基于伪标注与课程学习的语音识别数据增强方法、语音识别方法及相关设备。
2、第一方面,本发明提供一种基于伪标注与课程学习的语音识别数据增强方法,包括:
3、步骤1:构建半监督语音识别数据集,包括已标注语音数据集和无标注语音数据集;
4、步骤2:选取预训练语音识别模型,采用所述已标注语音数据集对所述预训练语音识别模型进行微调,得到初始语音识别模型;
5、步骤3:采用所述初始语音识别模型对所述无标注语音数据集进行解码,生成所述无标注语音数据集的硬标签,从而得到伪标注语音数据集;并基于每个无标注语音样本的所述硬标签对应的后验概率计算得到对应的伪标注语音样本的置信分数;
6、步骤4:将所述伪标注语音数据集和所述已标注语音数据集混合,得到混合语音数据集;
7、步骤5:按照置信分数的大小将所述混合语音数据集切分成若干个混合语音子数据集,以供按照课程学习策略来训练所述初始语音识别模型。
8、进一步地,步骤3中,所述解码方式为贪心搜索解码;
9、对应地,基于每个无标注语音样本的所述硬标签对应的后验概率计算得到对应的伪标注语音样本的置信分数,具体包括:
10、按照下式计算伪标注语音样本的置信分数sgs:
11、
12、其中,t为解码的步数索引,为初始语音识别模型在第t步生成的字符,表示当输入为第j个无标注语音样本时,初始语音识别模型在第t步生成在字符的后验概率,表示对应的硬标签的长度。
13、进一步地,步骤3中,所述解码方式为束搜索解码;
14、对应地,基于每个无标注语音样本的所述硬标签对应的后验概率计算得到对应的伪标注语音样本的置信分数,具体包括:
15、按照下式计算伪标注语音样本的置信分数sbs:
16、
17、其中,t为解码的步数索引,为初始语音识别模型在第t步生成的字符,表示当输入为第j个无标注语音样本时,初始语音识别模型在第t步生成在字符的后验概率,表示对应的硬标签的长度。
18、第二方面,本发明提供一种基于伪标注与课程学习的语音识别方法,包括:
19、采用如第一方面所述的语音识别数据增强方法,生成若干个混合语音子数据集;
20、按照混合语音子数据集的置信分数大小,逐个采用置信分数较大的混合语音子数据集对上一个混合语音子数据集微调训练后的语音识别模型进行微调训练,直至完成所有混合语音子数据集的微调训练,得到最终的语音识别模型;
21、将待识别语音输入至最终的语音识别模型,得到语音识别结果。
22、进一步地,所述预训练语音识别模型采用whisper模型。
23、第三方面,本发明提供一种基于伪标注与课程学习的语音识别数据增强装置,包括:
24、数据集构建模块,用于构建半监督语音识别数据集,包括已标注语音数据集和无标注语音数据集;
25、伪标注模块,用于选取预训练语音识别模型,采用所述已标注语音数据集对所述预训练语音识别模型进行微调,得到初始语音识别模型;以及采用所述初始语音识别模型对所述无标注语音数据集进行解码,生成所述无标注语音数据集的硬标签,从而得到伪标注语音数据集;
26、置信分数计算模块,用于基于每个无标注语音样本的所述硬标签对应的后验概率计算得到对应的伪标注语音样本的置信分数;
27、数据增强模块,用于将所述伪标注语音数据集和所述已标注语音数据集混合,得到混合语音数据集;以及按照置信分数的大小将所述混合语音数据集切分成若干个混合语音子数据集,以供按照课程学习策略来训练所述初始语音识别模型。
28、第四方面,本发明提供一种基于伪标注与课程学习的语音识别系统,包括:如第三方面所述的数据增强装置、课程学习模块和语音识别模块;
29、所述课程学习模块,用于按照混合语音子数据集的置信分数大小,逐个采用置信分数较大的混合语音子数据集对上一个混合语音子数据集微调训练后的语音识别模型进行微调训练,直至完成所有混合语音子数据集的微调训练,得到最终的语音识别模型;
30、语音识别模块,用于将待识别语音输入至最终的语音识别模型,得到语音识别结果。
31、第五方面,本发明提供一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序时实现如第一方面或者第二方面所述的方法。
32、第六方面,本发明提供一种非暂态计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如第一方面或者第二方面所述的方法。
33、本发明的有益效果:
34、(1)本发明提出了一种基于伪标注与课程学习的语音识别数据增强方法及装置,首先采用伪标注技术生成无标注语音数据的伪标注,对半监督数据进行扩增;接着,将基于伪标注解码时的后验概率计算得到置信分数,以该置信分数为纽带,将其视为课程学习中衡量数据的难易程度标准,从而将伪标注技术与课程学习技术有机结合起来,实现伪标注本身能力的进一步挖掘,实现语音识别数据的有效增强,解决了低资源语言数据稀缺的问题。
35、(2)本发明还提出了一种基于伪标注与课程学习的语音识别方法及系统,将伪标注技术与课程学习策略有机结合在一起,实现了语音识别数据的有效增强利用,基于增强后的数据集采用课程学习策略对语音识别模型进行微调,从而提升了模型的语音识别性能。
1.一种基于伪标注与课程学习的语音识别数据增强方法,其特征在于,包括:
2.根据权利要求1所述的一种基于伪标注与课程学习的语音识别数据增强方法,其特征在于,步骤3中,所述解码方式为贪心搜索解码;
3.根据权利要求1所述的一种基于伪标注与课程学习的语音识别数据增强方法,其特征在于,步骤3中,所述解码方式为束搜索解码;
4.一种基于伪标注与课程学习的语音识别方法,其特征在于,包括:
5.根据权利要求4所述的一种基于伪标注与课程学习的语音识别方法,其特征在于,所述预训练语音识别模型采用whisper模型。
6.一种基于伪标注与课程学习的语音识别数据增强装置,其特征在于,包括:
7.一种基于伪标注与课程学习的语音识别系统,其特征在于,包括:如权利要求6所述的数据增强装置、课程学习模块和语音识别模块;
8.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至5任一项所述的方法。
9.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至5任一项所述的方法。