本公开总体上涉及机器学习系统。更具体地,本公开涉及用于多声道(multi-channel)语音增强的基于掩码的(mask-based)神经波束成形的系统和方法。
背景技术:
1、使用电子设备(诸如移动设备、可穿戴设备和智能家用电器设备)的用户之间的通信或与使用电子设备的智能助理的交互已经变得越来越普遍。通常,这些通信或交互涉及使用由诸如自动语音识别(speech recognition)、关键词识别(keyword spotting)等系统驱动的各种语音用户接口。然而,现实环境中的周围噪声和干扰给恰当地理解语音输入造成了问题。例如,语音质量在嘈杂的环境中急剧地下降,导致关键信息在接收器侧(人耳或智能助理)丢失。
技术实现思路
1、技术解决方案
2、本公开涉及用于多声道语音增强的基于掩码的神经波束成形的系统和方法。
3、在第一实施例中,一种方法包括在第一时间窗口期间从多个音频输入设备接收一组有噪音频信号。该方法还包括基于该组有噪音频信号生成有噪时间-频率(time-frequency)表示。该方法还包括将有噪时间-频率表示作为输入提供给掩码估计模型,该掩码估计模型被训练以输出用于从有噪时间-频率表示预测干净语音音频的干净时间-频率表示的掩码。该方法还包括基于掩码来确定波束成形滤波器权重。该方法还包括将波束成形滤波器权重应用于有噪时间-频率表示,以将干净语音音频与该组有噪音频信号相隔离。另外,该方法包括输出干净语音音频。
4、在第二实施例中,一种电子设备包括至少一个处理设备,所述至少一个处理设备被配置为在第一时间窗口期间从多个音频输入设备接收一组有噪音频信号。所述至少一个处理设备还被配置为基于该组有噪音频信号生成有噪时间-频率表示。所述至少一个处理设备还被配置为将有噪时间-频率表示作为输入提供给掩码估计模型,所述掩码估计模型被训练以输出用于从有噪时间-频率表示预测干净语音音频的干净时间-频率表示的掩码。所述至少一个处理设备还被配置为基于掩码来确定波束成形滤波器权重。所述至少一个处理设备还被配置为将波束成形滤波器权重应用于有噪时间-频率表示,以将干净语音音频与该组有噪音频信号相隔离。另外,至少一个处理设备被配置为输出干净语音音频。
5、在第三实施例中,一种非暂时性机器可读介质包含指令,所述指令在被执行时使得电子设备的至少一个处理器在第一时间窗口期间从多个音频输入设备接收一组有噪音频信号。所述非暂时性机器可读介质还包含指令,所述指令在被执行时使得所述至少一个处理器基于该组有噪音频信号生成有噪时间-频率表示。所述非暂时性机器可读介质还包含指令,所述指令在被执行时使得所述至少一个处理器将有噪时间-频率表示作为输入提供给掩码估计模型,所述掩码估计模型被训练以输出用于从有噪时间-频率表示预测干净语音音频的干净时间-频率表示的掩码。所述非暂时性机器可读介质还包含指令,所述指令在被执行时使得所述至少一个处理器基于掩码来确定波束成形滤波器权重。所述非暂时性机器可读介质还包含指令,所述指令在被执行时使得所述至少一个处理器将所述波束成形滤波器权重应用于有噪时间-频率表示,以将干净语音音频与该组有噪音频信号相隔离。另外,非暂态机器可读介质还包含指令,所述指令在被执行时使得所述至少一个处理器输出干净语音音频。
6、根据以下附图、描述和权利要求,其他技术特征对于本领域技术人员而言可以是清晰的。
7、在进行下面的详细描述之前,对贯穿本专利文件使用的某些词语和短语的定义进行阐述可能是有利的。术语“发送”、“接收”和“通信”及其派生词包括直接和间接通信。术语“包括(include)”和“包括(comprise)”及其派生词意指包括但不限于此。术语“或”是包含性的,意指和/或。短语“与……相关联”及其派生词意指包括、被包括在……内、与……互连、包含、被包含在……内、连接到或与……连接、耦合到或与……耦合、可与……通信、与……协作、交织、并置、接近于、绑定到或与……绑定、具有、具有……的性质、与……具有关系等。
8、此外,下面描述的各种功能可以由一个或多个计算机程序实现或支持,每个计算机程序由计算机可读程序代码形成并体现在计算机可读介质中。术语“应用”和“程序”是指适于在合适的计算机可读程序代码中实现的一个或多个计算机程序、软件组件、指令集、过程、功能、对象、类、实例、相关数据或其一部分。短语“计算机可读程序代码”包括任何类型的计算机代码,包括源代码、目标代码和可执行代码。短语“计算机可读介质”包括能够由计算机访问的任何类型的介质,诸如只读存储器(rom)、随机存取存储器(ram)、硬盘驱动器、光盘(cd)、数字视频光盘(dvd)或任何其他类型的存储器。“非暂时性”计算机可读介质不包括传输暂时性电信号或其他信号的有线、无线、光学或其他通信链路。非暂时性计算机可读介质包括可以永久存储数据的介质和可以存储数据并稍后重写数据的介质,诸如可重写光盘或可擦除存储器设备。
9、如这里所使用的,诸如“具有”、“可以具有”、“包括”或“可以包括”特征(如数字、功能、操作或诸如一部分的组件)的术语和短语指示该特征的存在,并且不排除其他特征的存在。此外,如本文所使用的,短语“a或b”、“a和/或b中的至少一个”或“a和/或b中的一个或多个”可以包括a和b的所有可能的组合。例如,“a或b”、“a和b中的至少一个”和“a或b中的至少一个”可以指示以下全部:(1)包括至少一个a、(2)包括至少一个b或(3)包括至少一个a和至少一个b。此外,如这里所使用的,术语“第一”和“第二”可以修饰各种组件而不管其重要性,并且不限制组件。这些术语仅用于将一个组件与另一个组件区分开。例如,第一用户设备和第二用户设备可以指示彼此不同的用户设备,而不管设备的顺序或重要性。在不脱离本公开的范围的情况下,第一组件可以表示为第二组件,反之亦然。
10、应当理解,当元素(诸如第一元素)被称为(操作地或通信地)与另一元素(诸如第二元素)“耦合”或“连接”,或者当元素(诸如第一元素)被称为(操作地或通信地)“耦合到”或“连接到”另一元素(诸如第二元素)时,其可以直接或经由第三元素与另一元素耦合或连接,或者可以直接或经由第三元素耦合或连接到另一元素。相反,应当理解,当元素(诸如第一元素)被称为与另一元素(诸如第二元素)“直接耦合”或“直接耦合到”另一元素(诸如第二元素),或者与另一元素(诸如第二元素)“直接连接”或“直接连接到”另一元素(诸如第二元素)时,则在该元素和另一元素之间没有其他元素(诸如第三元素)。
11、如本文所使用的,取决于各种情况,短语“被配置(或设置)为”可以与短语“适合于”、“具有……的能力”、“被设计为”、“适于”、“被制造为”或“能够”互换使用。短语“被配置(或设置)为”本质上不意味着“在硬件中专门设计为”。相反,短语“被配置为”可以表示设备可以与另一设备或部件一起执行操作。例如,短语“被配置(或设置)为执行a、b和c的处理器”可以表示可以通过执行存储在存储器设备中的一个或多个软件程序来执行操作的通用处理器(诸如cpu或应用处理器)或用于执行操作的专用处理器(诸如嵌入式处理器)。
12、这里使用的术语和短语仅用于描述本公开的一些实施例,而不是限制本公开的其他实施例的范围。应当理解,单数形式“一”、“一个”和“该”包括复数指代,除非上下文另有明确说明。这里使用的所有术语和短语,包括技术和科学术语和短语,具有与本公开的实施例所属领域的普通技术人员通常理解的含义相同的含义。将进一步理解,术语和短语,诸如在常用词典中定义的那些术语和短语,应当被解释为具有与其在相关领域的上下文中的含义一致的含义,并且将不以理想化或过度正式的意义来解释,除非在此明确地如此定义。在一些情况下,这里定义的术语和短语可以被解释为排除本公开的实施例。
13、根据本公开的实施例的“电子设备”的示例可以包括以下中的至少一个:智能电话、平板个人计算机(pc)、移动电话、视频电话、电子书阅读器、台式pc、膝上型计算机、上网本计算机、工作站、个人数字助理(pda)、便携式多媒体播放器(pmp)、mp3播放器、移动医疗设备、相机或可穿戴设备(诸如智能眼镜、头戴式设备(hmd)、电子服装、电子手镯、电子项链、电子配饰、电子纹身或智能手表)。电子设备的其他示例包括智能家用电器。智能家用电器的示例可以包括以下中的至少一个:电视机、数字视频盘(dvd)播放器、音频播放器、冰箱、空调、吸尘器、烤箱、微波炉、洗衣机、烘干机、空气净化器、机顶盒、家庭自动化控制面板、安全控制面板、tv盒(诸如三星homesync、appletv或google tv)、智能扬声器或具有集成数字助理的扬声器(诸如三星galaxy home、apple homepod或amazon echo)、游戏控制台(诸如xbox、playstation或nintendo)、电子词典、电子钥匙、便携式摄像机或电子相框。电子设备的其他示例包括以下中的至少一个:各种医疗设备(诸如各种便携式医疗测量设备(如血糖测量设备、心跳测量设备或体温测量设备)、磁资源血管造影(mra)设备、磁资源成像(mri)设备、计算机断层扫描(ct)设备、成像设备或超声设备)、导航设备、全球定位系统(gps)接收器、事件数据记录器(edr)、飞行数据记录器(fdr)、汽车信息娱乐设备、航行电子设备(诸如航行导航设备或陀螺罗盘)、航空电子设备、安全设备、车辆头部单元、工业或家用机器人、自动柜员机(atm)销售点(pos)设备或物联网(iot)设备(诸如灯泡、各种传感器、电表或燃气表、喷洒器、火灾报警器、恒温器、路灯、烤面包机、健身器材、热水箱、加热器或锅炉)。电子设备的其他示例包括以下中的至少一部分:一件家具或建筑物/结构、电子板、电子签名接收设备、投影仪或各种测量设备(诸如用于测量水、电、气体或电磁波的设备)。注意,根据本公开的各种实施例,电子设备可以是上面列出的设备中的一个或组合。根据本公开的一些实施例,电子设备可以是柔性电子设备。这里公开的电子设备不限于上面列出的设备,并且根据技术的发展可以包括新的电子设备。
14、在以下描述中,根据本公开的各种实施例,参考附图描述了电子设备。如这里所使用的,术语“用户”可以表示使用电子设备的人或另一设备(诸如人工智能电子设备)。
15、在本专利文件中可以提供其他某些词语和短语的定义。本领域普通技术人员应当理解,在许多情况下,如果不是大多数情况,这样的定义适用于这样定义的词语和短语的先前以及将来的使用。
16、本技术中的描述都不应被解读为暗示任何特定元素、步骤或功能是必须包括在权利要求范围内的必要元素。专利主题的范围仅由权利要求限定。此外,权利要求都不旨在援引35u.s.c.§112(f),除非确切的词语“用于……的装置”后面跟着分词(participle)。任何其他术语的使用,包括但不限于在权利要求内使用的“机构”、“模块”、“设备”、“单元”、“组件”、“元素”、“构件”、“装置”、“机器”、“系统”、“处理器”或“控制器”,被申请人理解为是指相关领域技术人员已知的结构,而不旨在援引35u.s.c.§112(f)。
1.一种方法,包括:
2.根据权利要求1所述的方法,其中,所述波束成形滤波器权重包括对应于语音音频的第一功率谱密度(psd)矩阵和对应于噪声音频的第二psd矩阵。
3.根据权利要求2所述的方法,其中,对应于第一psd矩阵的语音音频和对应于第二psd矩阵的噪声音频来自第一时间窗口之前的第二时间窗口。
4.根据权利要求2所述的方法,还包括:
5.根据权利要求1所述的方法,其中:
6.根据权利要求1所述的方法,其中:
7.根据权利要求1所述的方法,其中,所述掩码估计模型被训练以输出具有在复平面上的单位圆内的幅度的掩码。
8.一种电子设备,包括:
9.根据权利要求8所述的电子设备,其中,所述波束成形滤波器权重包括对应于语音音频的第一功率谱密度(psd)矩阵和对应于噪声音频的第二psd矩阵。
10.根据权利要求9所述的电子设备,其中,对应于第一psd矩阵的语音音频和对应于第二psd矩阵的噪声音频来自第一时间窗口之前的第二时间窗口。
11.根据权利要求9所述的电子设备,其中,所述至少一个处理设备还被配置为,使用掩码更新第一psd矩阵和第二psd矩阵。
12.根据权利要求8所述的电子设备,其中:
13.根据权利要求8所述的电子设备,其中:
14.根据权利要求8所述的电子设备,其中,所述掩码估计模型被训练以输出具有在复平面上的单位圆内的幅度的掩码。
15.一种包含指令的非暂时性机器可读介质,所述指令在被执行时使得电子设备的至少一个处理器: