语音识别方法及装置、电子设备和存储介质与流程

专利查询8月前 58

本公开涉及车辆，尤其涉及一种语音识别方法及装置、电子设备和存储介质。

背景技术：

1、随着科技的发展，语音交互系统应用于我们生活的方方面面，语音交互功能不断完善，可以实现与用户进行聊天、操控智能设备等功能。

2、目前，语音交互系统仅支持使用标准语音进行语音交互，若使用地方语言(方言)进行交互，会导致语音识别准确率低，无法正常使用语音交互功能。因此如何利用方言完成与用户之间的互动就成为亟待解决的问题。

技术实现思路

1、本公开提供了一种语音识别方法、装置、电子设备和存储介质。其主要目的在于解决无法通过方言进行语音交互的问题。

2、根据本公开的第一方面，提供了一种语音识别方法，其中，包括：

3、确定待识别音频的第一方言类型；

4、根据所述待识别音频及所述第一方言类型进行语音识别得到语音识别结果；

5、获取生成所述待识别音频对应方言回复语句的第二方言类型；

6、根据所述第二方言类型及所述语音识别结果生成所述待识别音频对应的方言回复语句。

7、可选的，所述根据所述待识别音频及所述第一方言类型进行语音识别得到语音识别结果包括：

8、确定与所述第一方言类型对应的语音识别模型；其中，不同方言类型对应不同语音识别模型；

9、基于确定出的语音识别模型对所述待识别音频进行语音识别得到语音识别结果。

10、可选的，所述确定待识别音频的第一方言类型包括：

11、将用户输入的方言类型确定为所述待识别音频的第一方言类型；

12、或者通过所述待识别音频中的语音特征确定所述待识别音频的第一方言类型。

13、可选的，所述根据所述第二方言类型及所述语音识别结果生成所述待识别音频对应的方言回复语句包括：

14、根据所述待识别音频的第二方言类型及语音识别结果，进行自然语言理解，得到自然语言理解结果；

15、根据所述自然语音理解结果及所述待识别音频的第二方言类型，生成基于所述方言类型的答复语句。

16、可选的，所述获取生成所述待识别音频对应方言回复语句的第二方言类型包括：

17、将所述第一方言类型确定为第二方言类型；

18、或者将用户指定的除第一方言类型外的方言类型确定为所述第二方言类型。

19、可选的，在确定待识别音频的第一方言类型之前，所述方法还包括：

20、获取待识别音频，并确定所述待识别音频的发声源的第一位置；

21、可选的，所述获取生成所述待识别语音对应方言回复语句的第二方言类型包括：

22、采集第二待识别音频；

23、在确所述第二待识别音频对应的位置不为所述第一位置的情况下，确定所述第二待识别音频的方言类型，以及确定所述第二待识别音频的发声源的第二位置；

24、将所述第二位置与对应的方言类型进行绑定；

25、将所述第二位置对应的方言类型确定为所述第二方言类型。

26、可选的，所述获取生成所述待识别语音对应方言回复语句的第二方言类型还包括：

27、确定各乘客的身份信息，并根据各所述身份信息确定对应的方言类型；其中，乘客的身份信息与方言类型的对应关系通过预先配置得到；

28、将所述身份信息对应的方言类型确定为第二方言类型。

29、可选的，所述根据所述第二方言类型及所述语音识别结果生成所述待识别音频对应的方言回复语句包括：

30、根据所述第一方言类型及所述语音识别结果生成第一方言回复语句；

31、根据所述第二方言类型及所述语音识别结果生成第二方言回复语句。

32、可选的，在根据所述方言类型及所述语音识别结果生成所述待识别音频对应的方言回复语句之后，所述方法还包括：

33、由所述第一位置关联的扬声器播放所述第一方言回复语句；及，

34、由所述第二位置关联的扬声器，播放所述第二位置绑定的方言类型的对应的第二方言回复语句。

35、根据本公开的第二方面，提供了一种语音识别装置，包括：

36、确定单元，用于确定待识别音频的第一方言类型；

37、识别单元，用于根据所述待识别音频及所述第一方言类型进行语音识别得到语音识别结果；

38、第一获取单元，用于获取生成所述待识别音频对应方言回复语句的第二方言类型；

39、生成单元，用于根据所述第二方言类型及所述语音识别结果生成所述待识别音频对应的方言回复语句。

40、可选的，所述识别单元包括：

41、第一确定模块，用于确定与所述第一方言类型对应的语音识别模型；其中，不同方言类型对应不同语音识别模型；

42、识别模块，用于基于确定出的语音识别模型对所述待识别音频进行语音识别得到语音识别结果。

43、可选的，所述确定单元还用于：将用户输入的方言类型确定为所述待识别音频的第一方言类型；

44、或者通过所述待识别音频中的语音特征确定所述待识别音频的第一方言类型。

45、可选的，所述生成单元包括：

46、理解模块，用于根据所述待识别音频的第二方言类型及语音识别结果，进行自然语言理解，得到自然语言理解结果；

47、生成模块，用于根据所述自然语音理解结果及所述待识别音频的第二方言类型，生成基于所述方言类型的答复语句。

48、可选的，所述第一获取单元还用于：

49、将所述第一方言类型确定为第二方言类型；

50、或者将用户指定的除第一方言类型外的方言类型确定为所述第二方言类型。

51、可选的，所述装置还包括：

52、第二获取单元，用于在确定单元确定待识别音频的第一方言类型之前，获取待识别音频，并确定所述待识别音频的发声源的第一位置；

53、可选的，所述第一获取单元包括：

54、采集模块，用于采集第二待识别音频；

55、第二确定模块，用于在确所述第二待识别音频对应的位置不为所述第一位置的情况下，确定所述第二待识别音频的方言类型，以及确定所述第二待识别音频的发声源的第二位置；

56、绑定模块，用于将所述第二位置与对应的方言类型进行绑定；

57、第三确定模块，用于将所述第二位置对应的方言类型与所述第一方言类型确定为所述第二方言类型。

58、可选的，所述第一获取单元还包括：

59、第四确定模块，用于确定各乘客的身份信息，并根据各所述身份信息确定对应的方言类型；其中，乘客的身份信息与方言类型的对应关系通过预先配置得到；

60、第五确定单元，用于将所述身份信息对应的方言类型与所述第一方言类型确定为第二方言类型。

61、可选的，所述生成单元还用于：

62、根据所述第一方言类型及所述语音识别结果生成第一方言回复语句；

63、根据所述第二方言类型及所述语音识别结果生成第二方言回复语句。

64、可选的，所述装置还包括：

65、播放单元，用于在生成单元根据所述方言类型及所述语音识别结果生成所述待识别音频对应的方言回复语句之后，由所述第一位置关联的扬声器播放所述第一方言回复语句；及，

66、由所述第二位置关联的扬声器，播放所述第二位置绑定的方言类型的对应的第二方言回复语句。

67、根据本公开的第三方面，提供了一种电子设备，包括：

68、至少一个处理器；以及

69、与所述至少一个处理器通信连接的存储器；其中，

70、所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行前述第一方面所述的方法。

71、根据本公开的第四方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行前述第一方面所述的方法。

72、根据本公开的第五方面，提供了一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现如前述第一方面所述的方法。

73、本公开提供的语音识别方法、装置、电子设备和存储介质，主要技术方案包括：首先，确定待识别音频的第一方言类型；根据所述待识别音频及所述第一方言类型进行语音识别得到语音识别结果；其次，获取生成所述待识别音频对应方言回复语句的第二方言类型；最后，根据所述第二方言类型及所述语音识别结果生成所述待识别音频对应的方言回复语句。与相关技术相比，本技术实施例通过在语音识别之前，首先判断音频数据的方言类型，结合确定出的方言类型进行语音识别，并且根据方言类型生成与方言类型对应的方言回复语句；实现了对方言音频的语音识别，并且可根据方言类型生成特定的方言回复语句，与用户进行交互，实现了通过方言进行人机交互。

74、应当理解，本部分所描述的内容并非旨在标识本技术的实施例的关键或重要特征，也不用于限制本技术的范围。本技术的其它特征将通过以下的说明书而变得容易理解。

技术特征：

1.一种语音识别方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述根据所述待识别音频及所述第一方言类型进行语音识别得到语音识别结果包括：

3.根据权利要求2所述的方法，其特征在于，所述确定待识别音频的第一方言类型包括：

4.根据权利要求1所述的方法，其特征在于，所述获取生成所述待识别音频对应方言回复语句的第二方言类型包括：

5.根据权利要求1-3中任一项所述的方法，其特征在于，在确定待识别音频的第一方言类型之前，所述方法还包括：

6.根据权利要求5所述的方法，其特征在于，所述获取生成所述待识别语音对应方言回复语句的第二方言类型包括：

7.根据权利要求5所述的方法，其特征在于，所述获取生成所述待识别语音对应方言回复语句的第二方言类型还包括：

8.根据权利要求6或7所述的方法，其特征在于，所述根据所述第二方言类型及所述语音识别结果生成所述待识别音频对应的方言回复语句包括：

9.根据权利要求8所述的方法，其特征在于，在根据所述方言类型及所述语音识别结果生成所述待识别音频对应的方言回复语句之后，所述方法还包括：

10.一种语音识别装置，其特征在于，包括：

11.一种电子设备，其特征在于，包括：

12.一种存储有计算机指令的非瞬时计算机可读存储介质，其特征在于，所述计算机指令用于使所述计算机执行根据权利要求1-9中任一项所述的方法。

13.一种计算机程序产品，其特征在于，包括计算机程序，所述计算机程序在被处理器执行时实现根据权利要求1-9中任一项所述的方法。

技术总结
本公开公开了语音识别方法及装置、电子设备和存储介质，涉及车辆技术领域，主要技术方案包括：首先，确定待识别音频的第一方言类型；根据所述待识别音频及所述第一方言类型进行语音识别得到语音识别结果；其次，获取生成所述待识别音频对应方言回复语句的第二方言类型；最后，根据所述第二方言类型及所述语音识别结果生成所述待识别音频对应的方言回复语句。通过在语音识别之前，首先判断音频数据的方言类型，结合确定出的方言类型进行语音识别，并且根据方言类型生成与方言类型对应的方言回复语句；实现了对方言音频的语音识别，并且可根据方言类型生成特定的方言回复语句，与用户进行交互，实现了通过方言进行人机交互。

技术研发人员：吴东,刘晓博,崔韩冬,王为,黄斌,陈伟
受保护的技术使用者：北京罗克维尔斯科技有限公司
技术研发日：
技术公布日：2024/12/5

专利

最新回复(0)