语音分离方法、装置、设备和存储介质以及语音转写方法与流程

本申请涉及语音交互，特别是涉及一种语音分离方法、装置、语音转写方法、装置以及计算机设备和存储介质。

背景技术：

1、随着语音交互技术的发展，出现了远场语音识别技术，远场语音识别是语音交互领域的重要技术，主要面临着回声干扰、室内混响、多信号源干扰等问题，该技术在智能家居(智能音箱、智能电视等)、会议室、车载导航等场景中都有重要的应用前景。例如，会议场景包含了丰富的讲话风格和复杂的声学条件，需要考虑重叠语音、数量未知的说话人、大型会议室中的远场信号、噪音和混响等。

2、传统技术中，从诸如会议场景等远场中识别语音的方法是，通过麦克风阵列获取会议语音信号，然后通过空间语音角色分离模块得到相应的多说话人分离的输出语音信号，最后通过语音识别模块对输出语音信号进行转写以生成语音识别文本。但是，传统的方法存在语音分离不够准确的问题，因此，也会导致语音转写文本不够准确。

技术实现思路

1、基于此，有必要针对上述技术问题，提供一种能够提高语音分离准确性的语音分离方法、装置、计算机设备和存储介质，以及一种能够提高语音转写准确性的语音转写方法、装置、计算机设备和存储介质。

2、一种语音分离方法，该方法包括：

3、获取多通道混合语音数据；

4、从多通道混合语音数据中分离得到单路语音数据；

5、从单路语音数据中确定不同说话人的身份转变的时间点，根据时间点将单路语音数据分割为多个不同说话人的语音短片段；

6、对多个不同说话人的语音短片段进行分类，得到属于同一说话人的语音短片段；

7、对同一说话人的语音短片段进行说话人聚类处理，得到属于同一说话人的分离后语音数据。

8、在一些实施例中，从多通道混合语音数据中分离得到单路语音数据，包括：

9、获取多通道混合语音数据的目标通道的观测信号的幅度谱；

10、提取多通道混合语音数据的各通道之间的相位差特征；

11、将幅度谱和相位差特征输入基于循环神经网络的掩蔽网络中，得到掩蔽网络输出的掩蔽值；

12、根据掩蔽值计算观测信号的协方差矩阵；

13、根据协方差矩阵推导基于最小均方无畸变响应的空间滤波系数；

14、根据空间滤波系数从多通道混合语音数据中分离目标通道对应的单路语音数据。

15、在一些实施例中，对多个不同说话人的语音短片段进行分类，得到属于同一说话人的语音短片段，包括：

16、将多个不同说话人的语音短片段输入说话人分割网络，得到说话人分割网络预测的各语音短片段的预测概率；

17、将预测概率相同的语音短片段作为同一说话人的语音短片段。

18、在一些实施例中，对同一说话人的语音短片段进行说话人聚类处理，得到属于同一说话人的分离后语音数据，包括：

19、从同一说话人的各语音短片段中提取嵌入编码特征；

20、利用限制增量聚类算法对各嵌入编码特征进行聚类处理，得到属于同一说话人的分离后语音数据。

21、在一些实施例中，从同一说话人的各语音短片段中提取嵌入编码特征，包括：

22、将同一说话人的语音短片段输入卷积滤波特征提取层，得到第一特征；

23、将第一特征输入时延神经网络，得到第二特征；

24、将第二特征输入深度神经网络，得到第三特征；

25、将第三特征输入嵌入编码网络，得到嵌入编码特征。

26、一种语音分离装置，该装置包括：

27、混合语音获取模块，用于获取多通道混合语音数据；

28、单路语音分离模块，用于从多通道混合语音数据中分离得到单路语音数据；

29、说话人分割模块，用于从单路语音数据中确定不同说话人的身份转变的时间点，根据时间点将单路语音数据分割为多个不同说话人的语音短片段，还用于利用说话人分割网络对多个不同说话人的语音短片段进行分类，得到属于同一说话人的语音短片段；

30、说话人聚类模块，用于对同一说话人的语音短片段进行说话人聚类处理，得到属于同一说话人的分离后语音数据。

31、一种语音转写方法，该方法包括：

32、获取各通道对应的属于同一说话人的分离后语音数据；其中，分离后语音数据根据上述任一项的语音分离方法得到；

33、将各分离后语音数据分别进行语音识别操作，得到各分离后语音数据对应的语音识别文本；

34、将多个通道的语音识别文本进行合并，按照分离后语音数据产生时间的先后顺序将各分离后语音数据对应的语音识别文本输出。

35、一种语音转写装置，该装置包括：

36、混合语音分离模块，用于获取各通道对应的属于同一说话人的分离后语音数据；其中，分离后语音数据上述任一项的语音分离方法得到；

37、语音识别模块，用于将各分离后语音数据分别进行语音识别操作，得到各分离后语音数据对应的语音识别结果；

38、转写输出模块，用于将多个通道的语音识别结果进行合并，按照分离后语音数据产生时间的先后顺序将各分离后语音数据对应的语音识别结果转换为文本进行输出。

39、一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现上述任一项的语音分离方法的步骤，或实现上述任一项的语音转写方法的步骤。

40、一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述任一项的语音分离方法的步骤，或实现上述任一项的语音转写方法的步骤。

41、上述的语音分离方法、装置、计算机设备和存储介质，通过从多通道混合语音数据中分离单路语音数据，并对分离的单路语音数据进行说话人分割处理和说话人聚类处理，从而得到属于同一说话人的分离后语音数据，提高语音分离的准确性，即使在会议等复杂语音交互场景中，发生人员变动、说话人方向变更等也能够很好的适应变化，提高语音分离的准确性和精度，进一步地，将分离后的语音数据通过语音识别转写为文本，并将多通道对应的分离后语音数据进行整合，按照时间发生的先后顺序输出语音识别文本，从而提高了语音转写的完整性、逻辑性和准确性。

技术特征：

1.一种语音分离方法，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述从所述多通道混合语音数据中分离得到单路语音数据，包括：

3.根据权利要求1所述的方法，其特征在于，所述对多个不同说话人的语音短片段进行分类，得到属于同一说话人的语音短片段，包括：

4.根据权利要求1所述的方法，其特征在于，所述对同一说话人的语音短片段进行说话人聚类处理，得到属于同一说话人的分离后语音数据，包括：

5.根据权利要求1所述的方法，其特征在于，所述从同一说话人的各语音短片段中提取嵌入编码特征，包括：

6.一种语音分离装置，其特征在于，所述装置包括：

7.一种语音转写方法，所述方法包括：

8.一种语音转写装置，其特征在于，所述装置包括：

9.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至5中任一项所述的语音分离方法的步骤，或实现权利要求7所述的语音转写方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至5中任一项所述的语音分离方法的步骤，或实现权利要求7所述的语音转写方法的步骤。

技术总结
本申请涉及一种语音分离方法、装置、计算机设备和存储介质以及语音转写方法。所述方法包括：获取多通道混合语音数据；从多通道混合语音数据中分离得到单路语音数据；从单路语音数据中确定不同说话人的身份转变的时间点，根据时间点将单路语音数据分割为多个不同说话人的语音短片段；对多个不同说话人的语音短片段进行分类，得到属于同一说话人的语音短片段；对同一说话人的语音短片段进行说话人聚类处理，得到属于同一说话人的分离后语音数据。采用本方法能够提高语音分离的准确性，进而提高语音转写的准确性。

技术研发人员：谭应伟,张人杰,丁雪枫
受保护的技术使用者：大众问问（北京）信息科技有限公司
技术研发日：
技术公布日：2024/12/5

专利

最新回复(0)