一种双语语音实时翻译方法、系统、终端及介质

专利查询2月前  31


本发明涉及机器翻译,更具体地说,它涉及一种双语语音实时翻译方法、系统、终端及介质。


背景技术:

1、双语翻译是将一种语言翻译到另一种语言,一般采用高效的机器翻译技术进行翻译,如:基于规则的翻译方法,其使用语言学规则和词汇数据库来翻译文本;基于统计的翻译方法,其通过分析大量双语文本数据,学习翻译规则;神经机器翻译方法,其使用深度学习模型,特别是序列到序列(seq2seq)模型,如transformer,来进行翻译。

2、现有技术中的机器翻译技术主要是将一种语言的文本信息或语音信息经预处理后翻译成另一种语言的文本信息或语言信息,翻译过程是以文本与文本之间的互译作为中间过渡,在此过程中会丢失大量涉及情感表达的信息,所以一般用于文献翻译或单向对话翻译;即使涉及语音的翻译也是利用模板语音对文本信息进行转化,无法还原真实对话的情感表达,所以难以应用于具有交互属性的场景,尤其是在以两种声调语言进行对话的情况场景,如汉语、朝鲜语、泰语等语言。

3、因此,如何研究设计一种能够克服上述缺陷的双语语音实时翻译方法、系统、终端及介质是我们目前急需解决的问题。


技术实现思路

1、为解决现有技术中的不足,本发明的目的是提供一种双语语音实时翻译方法、系统、终端及介质,不仅真实还原了对话场景下的情感表达波动,也可对对话场景中语速过快、语速过慢、声音过高、声音过低等极限情况进行适应性调整,保障了双语语音实时翻译的稳定性和可靠性。

2、本发明的上述技术目的是通过以下技术方案得以实现的:

3、第一方面,提供了一种双语语音实时翻译方法,包括以下步骤:

4、接收第一语言的原始语音信息;

5、将第一语言的原始语音信息转换成原始文本,并对原始文本进行语句切分、分词处理,得到单个语句的词向量;

6、从第一语言的原始语音信息中识别并提取单个语句的语气特征;

7、从第一语言的原始语音信息中提取每个单词的原始声特征,得到与词向量对应的声特征序列;

8、根据语气特征匹配得到第一语言与第二语言在不同词性上的声差向量;

9、根据声差向量对相应的原始声特征进行校正处理,得到各个单词的参考声特征;

10、采用机器翻译技术将词向量翻译成第二语言的语句,并结合第二语言的模版语音生成相应语句翻译成第二语言的初始语音信息;

11、将参考声特征与对应初始语音信息进行声特征融合,得到第二语言的翻译语音信息。

12、进一步的,所述语气特征依据情感词汇、句子结构、副词、修饰词和语调进行识别分类;

13、其中,语气特征包括友好语气、礼貌语气、命令语气、询问语气、说服语气、讽刺语气、幽默语气、严肃语气、悲伤语气、愤怒语气、惊讶语气、鼓励语气、警告语气。

14、进一步的,所述原始声特征中的子特征包括音高、音量、语速、重音、停顿和音质。

15、进一步的,所述声差向量的表达式为:

16、;

17、其中,表示第一语言a与第二语言b在不同词性上的声差向量;表示第一语言a与第二语言b在第n个词性上的声差子向量;表示第n个词性的声差子向量中子特征m所对应的特征差值;表示第二语言b中第n个词性在子特征m所对应的特征值;表示第一语言a中第n个词性在子特征m所对应的特征值。

18、进一步的,所述参考声特征的计算公式具体为:

19、;

20、其中,表示参考声特征中第n个词性在子特征m所对应的校正特征值;表示原始声特征中第n个词性在子特征m所对应的实际特征值;表示第n个词性的声差子向量中子特征m所对应的特征差值。

21、进一步的,所述将参考声特征与对应初始语音信息进行声特征融合的表达式具体为:

22、;

23、其中,表示参考声特征中n个词性在子特征m所对应的平均特征值;表示参考声特征中词性的数量;表示参考声特征中第i个词性在子特征m所对应的校正特征值;表示翻译语音信息中第n个词性在子特征m所对应的最终特征值;表示参考声特征中第n个词性在子特征m所对应的校正特征值;表示初始语音信息中第n个词性在子特征m所对应的模版特征值。

24、进一步的,该方法还包括:

25、根据第一语言的原始语音信息获取第二语言的原始语音信息,第二语言的原始语音信息为第一语言的原始语音信息的对话语音,且第二语言的原始语音信息的时间戳早于第一语言的原始语音信息的时间戳;

26、从第二语言的原始语音信息中识别并提取与语气特征关联的关联语气;

27、在匹配声差向量时,结合语气特征和至少一个关联语气进行匹配。

28、第二方面,提供了一种双语语音实时翻译系统,该系统用于实现如第一方面中任意一项所述的一种双语语音实时翻译方法,包括:

29、信息接收模块,用于接收第一语言的原始语音信息;

30、文本处理模块,用于将第一语言的原始语音信息转换成原始文本,并对原始文本进行语句切分、分词处理,得到单个语句的词向量;

31、语气识别模块,用于从第一语言的原始语音信息中识别并提取单个语句的语气特征;

32、特征提取模块,用于从第一语言的原始语音信息中提取每个单词的原始声特征,得到与词向量对应的声特征序列;

33、特征匹配模块,用于根据语气特征匹配得到第一语言与第二语言在不同词性上的声差向量;

34、特征校正模块,用于根据声差向量对相应的原始声特征进行校正处理,得到各个单词的参考声特征;

35、初始翻译模块,用于采用机器翻译技术将词向量翻译成第二语言的语句,并结合第二语言的模版语音生成相应语句翻译成第二语言的初始语音信息;

36、特征融合模块,用于将参考声特征与对应初始语音信息进行声特征融合,得到第二语言的翻译语音信息。

37、第三方面,提供了一种计算机终端,包含存储器、处理器及存储在存储器并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如第一方面中任意一项所述的一种双语语音实时翻译方法。

38、第四方面,提供了一种计算机可读介质,其上存储有计算机程序,所述计算机程序被处理器执行可实现如第一方面中任意一项所述的一种双语语音实时翻译方法。

39、与现有技术相比,本发明具有以下有益效果:

40、1、本发明提供的一种双语语音实时翻译方法,在应用机器翻译技术进行双语言翻译过程中,将第一语言的原始语音信息中每个单词的原始声特征进行保留,并根据表征第一语言与第二语言在相同语气特征下语言表达风格差异的声差向量对原始声特征进行初步校正,并融合模板语音和校正后的原声信息来得到最终的翻译语音信息,不仅真实还原了对话场景下的情感表达波动,也可对对话场景中语速过快、语速过慢、声音过高、声音过低等极限情况进行适应性调整,保障了双语语音实时翻译的稳定性和可靠性;

41、2、本发明将声差向量中的具体特征细化至不同词性上,并根据翻译对象的不同而对原始声特征进行自适应组合,可以适用于具有语法结构差异的不同语言翻译;

42、3、本发明在将参考声特征与对应初始语音信息进行声特征融合时,仅将校正特征值相对于所有校正特征值的平均特征值的波动情况与初始语音信息中的声特征进行融合,保障了声特征组合后个单词之间顺畅衔接以及翻译语音的稳定性;

43、4、本发明在在匹配声差向量时,结合语气特征和至少一个关联语气进行匹配,使得翻译语音信息能够较好的还原所属对话语境,同时可以降低多义词的选取难度。


技术特征:

1.一种双语语音实时翻译方法,其特征是,包括以下步骤:

2.根据权利要求1所述的一种双语语音实时翻译方法,其特征是,所述语气特征依据情感词汇、句子结构、副词、修饰词和语调进行识别分类;

3.根据权利要求1所述的一种双语语音实时翻译方法,其特征是,所述原始声特征中的子特征包括音高、音量、语速、重音、停顿和音质。

4.根据权利要求1所述的一种双语语音实时翻译方法,其特征是,所述声差向量的表达式为:

5.根据权利要求1所述的一种双语语音实时翻译方法,其特征是,所述参考声特征的计算公式具体为:

6.根据权利要求1所述的一种双语语音实时翻译方法,其特征是,所述将参考声特征与对应初始语音信息进行声特征融合的表达式具体为:

7.根据权利要求1所述的一种双语语音实时翻译方法,其特征是,该方法还包括:

8.一种双语语音实时翻译系统,其特征是,该系统用于实现如权利要求1-7任意一项所述的一种双语语音实时翻译方法,包括:

9.一种计算机终端,包含存储器、处理器及存储在存储器并可在处理器上运行的计算机程序,其特征是,所述处理器执行所述程序时实现如权利要求1-7中任意一项所述的一种双语语音实时翻译方法。

10.一种计算机可读介质,其上存储有计算机程序,其特征是,所述计算机程序被处理器执行可实现如权利要求1-7中任意一项所述的一种双语语音实时翻译方法。


技术总结
本发明公开了一种双语语音实时翻译方法、系统、终端及介质,涉及机器翻译技术领域,其技术方案要点是:本发明在应用机器翻译技术进行双语言翻译过程中,将第一语言的原始语音信息中每个单词的原始声特征进行保留,并根据表征第一语言与第二语言在相同语气特征下语言表达风格差异的声差向量对原始声特征进行初步校正,并融合模板语音和校正后的原声信息来得到最终的翻译语音信息,不仅真实还原了对话场景下的情感表达波动,也可对对话场景中语速过快、语速过慢、声音过高、声音过低等极限情况进行适应性调整,保障了双语语音实时翻译的稳定性和可靠性。

技术研发人员:项田宇,刘文明,田禹,杨柳
受保护的技术使用者:山东科技大学
技术研发日:
技术公布日:2024/12/5

最新回复(0)