【专利下载】【专利代理】【商标和版权申请】Tel:18215660330

多模态智能音频设备系统注意力表达的制作方法

专利查询3月前  22

【专利下载】【专利代理】【商标和版权申请】Tel:18215660330


本申请要求以下申请的优先权:2019年7月30日提交的美国临时专利申请号62/880,110;2019年7月30日提交的美国临时专利申请号62/880,112;2020年1月21日提交的美国临时专利申请号62/964,018;以及2020年4月1日提交的美国临时专利申请号63/003,788,所述美国临时专利申请通过引用并入本文。

技术领域

本公开涉及用于自动控制环境中的多个智能音频设备的系统和方法。

背景技术

音频设备,包括但不限于智能音频设备,已经被广泛地部署并且正在成为许多家庭的共同特征。尽管用于控制音频设备的现有系统和方法提供了益处,但改进的系统和方法将仍是期望的。

符号和术语

在本文中使用表达“智能音频设备”来表示智能设备,该智能设备是单一用途音频设备或虚拟助理(例如,连接的虚拟助理)。单一用途音频设备是包括或耦接到至少一个麦克风(并且在一些示例中还可以包括或耦接到至少一个扬声器)并且很大程度上或主要被设计为实现单一用途的设备(例如,智能扬声器、电视(TV)或移动电话)。尽管TV通常可以播放(并且被认为能够播放)来自节目素材的音频,但是在大多数情况下,现代TV运行某种操作系统,其中应用程序(包括看电视的应用程序)在该操作系统上本地运行。类似地,移动电话中的音频输入和输出可以做许多事情,但是这些是由在电话上运行的应用程序服务的。从这个意义上说,具有(多个)扬声器和(多个)麦克风的单一用途音频设备通常被配置为运行本地应用程序和/或服务来直接使用(多个)扬声器和(多个)麦克风。一些单一用途音频设备可以被配置为组合在一起以实现在区或用户配置的区域上播放音频。

在本文中,“虚拟助理”(例如,连接的虚拟助理)是包括或耦接到至少一个麦克风(并且可选地还包括或耦接到至少一个扬声器)的设备(例如,智能扬声器、智能显示器或语音助理集成设备),并且该设备可以提供将多个设备(不同于虚拟助理)用于在某种意义上启用云或者未在虚拟助理本身中或其上实施的应用程序的能力。虚拟助理有时可以一起工作,例如,以非常离散和有条件定义的方式。例如,两个或更多个虚拟助理可以在其中一个(即,最确信已经听到唤醒词的虚拟助理)响应于该词的意义上一起工作。连接的设备可以形成一种构象(constellation),该构象可以由一个主应用程序管理,该主应用程序可以是(或包括或实施)虚拟助理。

在本文中,“唤醒词”在广义上用于表示任何声音(例如,人类说出的词或其他声音),其中智能音频设备被配置为响应于检测到(“听到”)声音(使用被包括在智能音频设备中或耦接到智能音频设备的至少一个麦克风,或至少一个其他麦克风)而唤醒。在这种情况下,“唤醒”表示设备进入等待(即,正在收听)声音命令的状态。在一些情况下,本文中可以被称为“唤醒词”的内容可以包括超过一个词,例如,短语。

在本文中,表达“唤醒词检测器”表示被配置为连续搜索实时声音(例如,言语)特征与训练模型之间的对齐的设备(或包括用于将设备配置为连续搜索实时声音特征与训练模型之间的对齐的指令的软件)。通常,每当唤醒词检测器确定已经检测到唤醒词的概率超过预定义阈值时,就会触发唤醒词事件。例如,该阈值可以是被调整以在错误接受率与错误拒绝率之间给出合理折衷的预定阈值。在唤醒词事件之后,设备可能会进入一种状态(可以被称为“唤醒”状态或“注意力”状态),在该状态下设备会收听命令并且将接收到的命令传递给更大、计算更密集的识别器。

贯穿本公开,包括在权利要求中,“扬声器(speaker)”和“扩音器(loudspeaker)”同义地用于表示由单个扬声器馈送驱动的任何发出声音的换能器(或一组换能器)。典型的一组耳机包括两个扬声器。扬声器可以被实施为包括多个换能器(例如,低音扬声器和高音扬声器),这些换能器全部由单个公共扬声器馈送驱动。在一些情况下,扬声器馈送可以在耦接到不同换能器的不同电路分支中经历不同的处理。

贯穿本公开,包括在权利要求中,在广义上使用“对”信号或数据进行操作的表达(例如,对信号或数据进行滤波、缩放、变换或施加增益)来表示直接对信号或数据进行操作或对信号或数据的已处理版本(例如,在对其进行操作之前已进行了初步滤波或预处理的信号版本)进行操作。

贯穿本公开,包括在权利要求中,在广义上使用表达“系统”来表示设备、系统或子系统。例如,实施解码器的子系统可以被称为解码器系统,并且包括这种子系统的系统(例如,响应于多个输入而生成X个输出信号的系统,其中,子系统生成其中M个输入,而其他X-M个输入是从外部源接收的)也可以被称为解码器系统。

贯穿本公开,包括在权利要求中,在广义上使用术语“处理器”来表示可编程或以其他方式可配置(例如,用软件或固件)为对数据(例如,音频、视频或其他图像数据)执行操作的系统或设备。处理器的示例包括现场可编程门阵列(或其他可配置集成电路或芯片组)、被编程和/或以其他方式被配置为对音频或其他声音数据执行流水线式处理的数字信号处理器、可编程通用处理器或计算机,以及可编程微处理器芯片或芯片组。



技术实现要素:

本公开的至少一些方面可以经由如控制环境中的设备系统的方法等方法来实施。在一些情况下,方法可以至少部分地由如本文所公开的那些控制系统来实施。一些这样的方法可以涉及从环境中的多个麦克风中的每个麦克风接收输出信号。多个麦克风中的每一个可以位于环境的麦克风位置。在一些示例中,输出信号可以对应于人的话语(utterance)。根据一些示例,麦克风中的至少一个可以被包括在智能音频设备中或者被配置用于与智能音频设备通信。在一些情况下,多个麦克风中的第一麦克风可以根据第一采样时钟对音频数据进行采样,并且多个麦克风中的第二麦克风可以根据第二采样时钟对音频数据进行采样。

一些这样的方法可以涉及至少部分地基于输出信号来确定环境内的区,该区至少具有阈值概率包括人的位置。一些这样的方法可以涉及在区内生成多个空间变化的注意力信号。在一些情况下,多个注意力信号中的每个注意力信号可以由位于区内的设备生成。例如,每个注意力信号可以指示对应的设备处于该对应的设备正在等待命令的操作模式下。在一些示例中,每个注意力信号可以指示对应的设备的相关性度量。

在一些实施方式中,由第一设备生成的注意力信号可以指示第二设备的相关性度量。在一些示例中,第二设备可以是对应于第一设备的设备。在一些情况下,话语可以是或者可以包括唤醒词。根据一些这样的示例,注意力信号至少部分地根据唤醒词置信度的估计而变化。

根据一些示例,注意力信号中的至少一个可以是在话语的时间之前对由区内的设备生成的至少一个先前信号的调制。在一些情况下,至少一个先前信号可以是或者可以包括光信号。根据一些这样的示例,调制可以是颜色调制、颜色饱和度调制和/或光强度调制。

在一些情况下,至少一个先前信号可以是或者可以包括声音信号。根据一些这样的示例,调制可以是水平调制(level modulation)。替代性地或另外地,调制可以是风扇速度、火焰大小、电机转速或空气流速中的一个或多个的变化。

根据一些示例,调制可以是本文中被称为“隆起(swell)”的内容。隆起可以是或者可以包括预定的信号调制序列。在一些示例中,隆起可以包括与信号水平从基线水平增加相对应的第一时间间隔。根据一些这样的示例,隆起可以包括与信号水平减少到基线水平相对应的第二时间间隔。在一些情况下,隆起可以包括在第一时间间隔之后且在第二时间间隔之前的保持时间间隔。在一些情况下,保持时间间隔可以对应于恒定信号水平。在一些示例中,隆起可以包括与信号水平从基线水平减少相对应的第一时间间隔。

根据一些示例,相关性度量可以至少部分地基于距某一位置的估计距离。在一些情况下,位置可以是人的估计位置。在一些示例中,估计距离可以是从该位置到区内的多个麦克风的声学质心(acoustic centroid)的估计距离。根据一些实施方式,相关性度量可以至少部分地基于对应的设备的估计可见性。

一些这样的方法可以涉及确定设备是否在设备组中的自动化过程。根据一些这样的示例,自动化过程可以至少部分地基于与由设备发射的光和/或声音相对应的传感器数据。在一些情况下,自动化过程可以至少部分地基于源与接收器之间的通信。例如,源可以是光源和/或声源。根据一些示例,自动化过程可以至少部分地基于源与编排中枢设备和/或接收器与编排中枢设备之间的通信。在一些情况下,自动化过程可以至少部分地基于光源和/或声源在一段时间内被接通和关断。

一些这样的方法可以涉及根据来自人的显式反馈来自动更新自动化过程。替代性地或另外地,一些方法可以涉及根据隐式反馈来自动更新自动化过程。例如,隐式反馈可以基于以下:基于估计区的波束成形成功、基于估计区的麦克风选择成功、确定人已经异常地终止语音助理的响应、命令识别器返回低置信度结果和/或第二道回顾性唤醒词检测器(second-pass retrospective wakeword detector)返回已说出唤醒词的低置信度。

一些方法可以涉及选择位于区内的设备的至少一个扬声器,并且控制至少一个扬声器向人提供声音。替代性地或另外地,一些方法可以涉及选择位于区内的设备的至少一个麦克风。一些这样的方法可以涉及向智能音频设备提供由至少一个麦克风输出的信号。

本文所描述的一些或所有操作、功能和/或方法可以由一个或多个装置根据存储在一个或多个非暂态介质上的指令(例如,软件)来执行。这种非暂态介质可以包括如本文所描述的存储器设备,包括但不限于随机存取存储器(RAM)设备、只读存储器(ROM)设备等。因此,本公开中描述的主题的一些创新方面可以在其上存储有软件的非暂态介质中实施。

例如,软件可以包括用于控制一个或多个设备来执行涉及控制环境中的设备系统的方法的指令。一些这样的方法可以涉及从环境中的多个麦克风中的每个麦克风接收输出信号。多个麦克风中的每一个可以位于环境的麦克风位置。在一些示例中,输出信号可以对应于人的话语。根据一些示例,麦克风中的至少一个可以被包括在智能音频设备中或者被配置用于与智能音频设备通信。在一些情况下,多个麦克风中的第一麦克风可以根据第一采样时钟对音频数据进行采样,并且多个麦克风中的第二麦克风可以根据第二采样时钟对音频数据进行采样。

一些这样的方法可以涉及至少部分地基于输出信号来确定环境内区,该区至少具有阈值概率包括人的位置。一些这样的方法可以涉及在区内生成多个空间变化的注意力信号。在一些情况下,多个注意力信号中的每个注意力信号可以由位于区内的设备生成。例如,每个注意力信号可以指示对应的设备处于该对应的设备正在等待命令的操作模式下。在一些示例中,每个注意力信号可以指示对应的设备的相关性度量。

在一些实施方式中,由第一设备生成的注意力信号可以指示第二设备的相关性度量。在一些示例中,第二设备可以是对应于第一设备的设备。在一些情况下,话语可以是或者可以包括唤醒词。根据一些这样的示例,注意力信号至少部分地根据唤醒词置信度的估计而变化。

根据一些示例,注意力信号中的至少一个可以是在话语的时间之前对由区内的设备生成的至少一个先前信号的调制。在一些情况下,至少一个先前信号可以是或者可以包括光信号。根据一些这样的示例,调制可以是颜色调制、颜色饱和度调制和/或光强度调制。

在一些情况下,至少一个先前信号可以是或者可以包括声音信号。根据一些这样的示例,调制可以是水平调制。替代性地或另外地,调制可以是风扇速度、火焰大小、电机转速或空气流速中的一个或多个的变化。

根据一些示例,调制可以是本文中被称为“隆起”的内容。隆起可以是或者可以包括预定的信号调制序列。在一些示例中,隆起可以包括与信号水平从基线水平增加相对应的第一时间间隔。根据一些这样的示例,隆起可以包括与信号水平减少到基线水平相对应的第二时间间隔。在一些情况下,隆起可以包括在第一时间间隔之后且在第二时间间隔之前的保持时间间隔。在一些情况下,保持时间间隔可以对应于恒定信号水平。在一些示例中,隆起可以包括与信号水平从基线水平减少相对应的第一时间间隔。

根据一些示例,相关性度量可以至少部分地基于距某一位置的估计距离。在一些情况下,位置可以是人的估计位置。在一些示例中,估计距离可以是从该位置到区内的多个麦克风的声学质心的估计距离。根据一些实施方式,相关性度量可以至少部分地基于对应的设备的估计可见性。

一些这样的方法可以涉及确定设备是否在设备组中的自动化过程。根据一些这样的示例,自动化过程可以至少部分地基于与由设备发射的光和/或声音相对应的传感器数据。在一些情况下,自动化过程可以至少部分地基于源与接收器之间的通信。例如,源可以是光源和/或声源。根据一些示例,自动化过程可以至少部分地基于源与编排中枢设备和/或接收器与编排中枢设备之间的通信。在一些情况下,自动化过程可以至少部分地基于光源和/或声源在一段时间内被接通和关断。

一些这样的方法可以涉及根据来自人的显式反馈来自动更新自动化过程。替代性地或另外地,一些方法可以涉及根据隐式反馈来自动更新自动化过程。例如,隐式反馈可以基于以下:基于估计区的波束成形成功、基于估计区的麦克风选择成功、确定人已经异常地终止语音助理的响应、命令识别器返回低置信度结果和/或第二道回顾性唤醒词检测器返回已说出唤醒词的低置信度。

一些方法可以涉及选择位于区内的设备的至少一个扬声器,并且控制至少一个扬声器向人提供声音。替代性地或另外地,一些方法可以涉及选择位于区内的设备的至少一个麦克风。一些这样的方法可以涉及向智能音频设备提供由至少一个麦克风输出的信号。

本公开的至少一些方面可以经由装置来实施。例如,一个或多个装置能够至少部分地执行本文所公开的方法。在一些实施方式中,装置可以包括接口系统和控制系统。控制系统可以包括一个或多个通用单芯片或多芯片处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其他可编程逻辑设备、离散门或晶体管逻辑、离散硬件部件或其组合。

在以下附图和说明中阐述了本说明书所描述的主题的一个或多个实施方式的细节。从所述描述、附图和权利要求中,其他特征、方面和优点将变得清晰。注意,以下附图的相对尺寸可能不是按比例来绘制的。

附图说明

图1A表示根据一个示例的环境。

图1B表示根据另一个示例的环境。

图2示出了由三个设备确定的唤醒词置信度值曲线的示例。

图3是示出了能够实施本公开的各个方面的装置的部件的示例的框图。

图4是概述了可以由如图3中示出的至少一个装置执行的方法的一个示例的流程图。

图5是示出了根据一些实施方式的特征的示例的框图。

图6是示出了隆起的示例的图。

图7示出了用于实施自动光学编排的系统的示例实施例。

图8是图示了图7的系统的操作方面的示例的一组图。

在各个附图中,相同的附图标记和名称指示相似的元件。

具体实施方式

一些实施例涉及编排的智能音频设备的系统,其中每个设备可以被配置为(向用户)指示何时该设备已经听到“唤醒词”并且正在监听来自用户的声音命令(即,由声音指示的命令)。

一类实施例涉及在各种环境(例如,相对较大的生活环境)中使用基于语音的接口,在这样的环境中,用户交互或用户接口没有单一的关注点。随着技术朝着广泛的物联网(IOT)自动化和连接设备的方向发展,我们周围和身上有许多东西表现出接受感官输入和通过将信号改变或转换到环境中来传递信息的能力。在我们的生活或工作空间自动化的情况下,智能(例如,至少部分地由(多个)自动化助理提供)可以在我们生活或工作的环境中体现为非常普遍或无处不在的意义。可能会有一种感觉,即助理有点无所不在而且是非侵入性的,这本身可能会造成用户接口的某种矛盾方面。

我们个人和生活空间中的家庭自动化和助理可以不再位于、控制或体现单个设备。可能有许多设备试图共同呈现普遍的服务或存在的设计目标。然而,为了要自然,我们需要通过与这种个人助理的交互来接合并触发正常的互动感和认可感。

我们自然主要通过语音来接合这种接口。根据一些实施例,设想使用语音来发起交互(例如,与至少一个智能音频设备)以及与至少一个智能音频设备(例如,助理)接合。在一些应用程序中,言语可以是在请求中指定更多细节和/或提供持续交互和确认的最无障碍且高带宽的方法。

然而,人类交流的过程虽然以语言为基础,但实际上是建立在信号传输和确认关注的第一阶段上。我们通常在没有首先感觉到接收者是可用的、准备好的和感兴趣的时不会发布命令或语音信息。我们可以控制关注的方式有很多,尽管目前在当前系统设计和用户接口中,系统示出注意力响应的方式更多地被反映在计算单个接口文本空间中,而不是在交互效率和自然度中。当设备主要是最近的麦克风或用户控制台时,大多数系统主要涉及简单的视觉指示器(灯),这不太适合具有更普遍的系统集成和环境计算的可预见的未来生活环境。

信号传输和关注表达是交流的关键部分,其中用户指示期望与至少一个智能音频设备(例如,虚拟助理)交互,并且每个设备示出用户的意识以及对理解和支持的初始和持续关注。在传统设计中,交互有几个不和谐的方面,其中助理更多地被视为离散设备接口。这些方面包括:

-在有多个点或设备可能潜在准备好接受输入并且给予关注的情况下,最适合表达关注的不仅仅是离用户最近的设备;

-考虑到生活和灵活工作空间的广泛人体工程学,用户的视觉关注可以不与指示确认的任何照明响应对齐;

-虽然语音可以来自离散的地方,但是它实际上往往是我们正在访问和寻求支持的房子或居住地,并且给予更普遍的关注感优于必须在交互之间离散地或突然地改变的单个设备;

-在高噪声和回声的条件下,可能会在定位用户以表达对特定区、位置或设备的注意力时出错;

-在许多情况下,用户可能正在移动到特定区域或从特定区域移动,并且因此,如果被迫选择位置或设备,则关于边界的决定将是不和谐的;

-通常,就一些事情是否清楚地发生而言,关注表达的形式具有非常离散的时间边界。

因此,我们设想用户与一个或多个智能音频设备之间的交互通常以对关注(例如,由用户说出的唤醒词)的呼叫(由用户发起的)开始,并且以来自(多个)智能音频设备或来自与智能音频设备相关联的设备的“注意力”的至少一个指示(或信号或表达)继续。我们还设想,在一些实施例中,至少一个智能音频设备(例如,提示性助理)可以持续收听声音信号(例如,指示用户活动的类型),或者可以持续对其他活动(不一定是声音信号)具有敏感性,并且智能音频设备将进入在检测到预定类型的声音(或活动)时等待来自用户的命令(例如,语音命令)的状态或操作模式。在进入后一种状态或操作模式时,每个这样的设备表现注意力(例如,以本文所述的任何方式)。

众所周知,将智能音频设备配置在离散物理区中以检测用户(其已经说出了已经由设备检测到的唤醒词),并且通过传输在区中由用户可以看到或听到的视觉信号和/或听觉信号来响应唤醒词。一些公开的实施例通过将(系统的)一个或多个智能音频设备配置为将用户的位置视为不确定的(在一些不确定的体积或区域内),并且通过使用不确定的体积(或区域)内的所有可用智能音频设备来通过设备的一个或多个(例如,所有)状态或操作模式来提供系统的“注意力”的空间变化的表达,来实施与该已知方法的偏离。在一些实施例中,目标不是挑选离用户最近的单个设备并且覆盖其当前设置,而是根据相关性度量来调制所有设备的行为,在一些示例中,该相关性度量可以至少部分地基于设备对于用户的估计接近度。这给出一种系统将其关注集中在局部区域的感觉,消除了远设备的不和谐的体验,表明当用户正试图引起设备中的较近设备的关注时,系统正在收听。

一些实施例通过定义和实施每个设备生成注意力信号(例如,响应于唤醒词)的能力来提供(或被配置为提供)环境或环境的区中所有智能音频设备的协调利用。在一些实施方式中,一些或所有设备可以被配置为将注意力信号“混合”到当前配置中(和/或生成至少部分地由所有设备的当前配置确定的注意力信号)。在一些实施方式中,每个设备可以被配置为确定距某一位置的距离的概率估计,如设备距用户位置的距离。一些这样的实施方式可以以与用户感知地相关的方式提供系统行为的结合的、编排的表达。

对于包括(或耦接到)至少一个扬声器的智能音频设备,注意力信号可以是从至少一个这种扬声器发射的声音。替代性地或另外地,注意力信号可以是一些其他类型的(例如,光)。在一些示例中,注意力信号可以是或者包括两个或更多个部件(例如,发射的声音和光)。

在本文中,我们有时将短语“注意力指示”或“注意力表达”与短语“注意力信号”互换地使用。

在一类实施例中,可以协调(编排)多个智能音频设备,并且每个设备可以被配置为响应于唤醒词而生成注意力信号。在一些实施方式中,第一设备可以提供对应于第二设备的注意力信号。在一些示例中,协调对应于所有设备的注意力信号。一些实施例的方面涉及实施智能音频设备,和/或协调智能音频设备。

根据一些实施例,在系统中,多个智能音频设备可以(例如,通过发射光信号)以协调的方式响应(例如,指示注意力或可用性的程度)公共操作点(或操作状态)的系统的确定。例如,操作点可以是响应于来自用户的唤醒词而进入的注意力状态,其中所有设备具有对用户位置的估计(例如,具有至少一个不确定的程度),并且其中设备根据其距用户的估计距离发射不同颜色的光。

在对用户的研究和交互实验之后,发明人已经认识到了一些特定的规则或指导准则,该规则或指导准则可以应用于表达关注的广域生活助理,并且支撑一些公开的实施例。

这些包括以下各项:

-关注可以示出持续性和响应性提高或个人信号传输。这为训练所需的信号传输工作提供了更好的指示和闭环,并且创建了更自然的交互。注意信号传输强度的范围(例如,从低声温和请求到大声咒骂)并且确定相关联的阻抗匹配响应(例如,从与温和抬起的瞥视相对应的响应到与站立以关注相对应的响应)可能是有用的;

-信号传输关注可以类似地持续传播关于用户位置和焦点的不确定性和模糊性。错误的项目或对象响应产生非常不连续且脱离实体的互动感觉和关注感觉。因此,应该避免强制选择;

-更加(而不是更少)普遍的信号传输和换能器通常是优选的用于补充任何单一的语音响应点,其中连续控制通常是重要的部件;以及

-对于关注的表达来说,能够自然地隆起并且返回到基线设置或环境可能是有利的,其给予陪伴感觉和存在感觉而不是纯粹的事务性的和基于信息的接口。

众所周知,一些事物会迅速拟人化,并且时间和连续性的微妙方面具有很大的影响。一些公开的实施例实施了对环境中的输出设备的连续控制,以记录对用户的一些感官效果,并且以自然隆起和返回的方式来控制设备以表达关注和释放,同时避免围绕交互阈值的位置和二元决策的不和谐的硬决策。

图1A是包括系统的环境(生活空间)的图,该系统包括用于音频交互的一组智能音频设备(设备1.1)、用于音频输出的扬声器(1.3)、麦克风1.5和可控灯(1.2)。如本申请的其他附图一样,图1A中所示的特定元件和元件的布置仅作为示例。执行各种公开的实施方式可以不需要所有这些特征。例如,对于至少一些公开的实施方式,可控灯1.2、扬声器1.3等是可选的。在一些情况下,一个或多个麦克风1.5可以是设备1.1、灯1.2或扬声器1.3中的一个的一部分或与其相关联。替代性地或另外地,一个或多个麦克风1.5可以附接到环境的另一个部分,例如,附接到墙、天花板、家具、电器或环境的另一个设备。在示例中,每个智能音频设备1.1包括至少一个麦克风1.5(和/或被配置用于与至少一个麦克风通信)。图1A的系统可以被配置为实施本公开的实施例。使用各种方法,可以从图1A的麦克风1.5聚集地获得信息并且将信息提供给被配置为提供对说出唤醒词的用户的位置估计的设备。

在生活空间中(例如,图1A的生活空间),存在一组自然活动区,人将在其中执行任务或活动,或跨越阈值。在一些示例中,这些区域(在本文中可以被称为用户区)可以由用户定义,而不指定几何位置的坐标或其他标记。在图1A中所示的示例中,用户区可以包括:

1.厨房水槽和食物制备区域(在生活空间的左上区域中);

2.冰箱门(在水槽和食物制备区域的右边);

3.餐饮区域(在生活空间的左下方区域中);

4.生活空间的开放区域(在水槽和食物制备区域和餐饮区域的右边);

5.TV沙发(在开放区域的右边);

6.TV本身;

7.桌子;以及

8.门区域或入户通道(在生活空间的右上方区域中)。

根据一些实施例,估计声音(例如,唤醒词或其他针对关注的信号)在何处出现或起源的系统可以对该估计具有某些确定的置信度(或多个假设)。例如,如果用户碰巧在系统环境的区之间的边界附近,则用户位置的不确定估计可以包括用户在每个区中的确定的置信度。在语音接口的一些传统实施方式中,要求语音助理的语音一次只能从一个位置发出,这迫使对单个位置进行单个选择(例如,图1A中的八个扬声器位置(1.1和1.3)之一)。然而,基于简单的假想角色扮演,很明显,(在这样的传统实施方式中)助理的语音的来源的所选位置(例如,包括在助理中或被配置用于与助理通信的扬声器的位置)是焦点或用于表达关注的自然返回响应的可能性可能很低。

接下来,参考图1B,我们描述包括说出直接言语102的用户(101)的另一个环境100(声学空间),以及包括一组智能音频设备(103、105和107)、用于音频输出的扬声器、和麦克风的系统的示例。系统可以根据本公开的实施例来配置。用户101(在本文中有时被称为说话者)说出的言语可以被系统的(多个)元件识别为唤醒词。

更具体地,图1B系统的元件包括:

102:直接本地语音(由用户101产生);

103:语音助理设备(耦接到一个或多个扩音器)。设备103被定位成比设备105或设备107更靠近用户101,并且因此设备103有时被称为“近”设备,设备105可以被称为“中距离”设备并且设备107可以被称为“远”设备;

104:近设备103中(或耦接到该近设备)的多个麦克风;

105:中距离语音助理设备(耦接到一个或多个扩音器);

106:中距离设备105中(或耦接到该中距离设备)的多个麦克风;

107:远语音助理设备(耦接到一个或多个扩音器);

108:远设备107中(或耦接到该远设备)的多个麦克风;

109:家用电器(例如灯);以及

110:家用电器109中(或耦接到该家用电器)的多个麦克风。在一些示例中,麦克风110的每个麦克风可以被配置用于与被配置用于实施所公开的方法中的一个或多个方法的设备通信,在一些情况下,该设备可以是设备103、105或107中的至少一个。

图1B的系统可以包括被配置用于实施本文所公开的一个或多个方法的至少一个设备。例如,设备103、设备105和/或设备107可以被配置用于实施一个或多个这种方法。替代性地或另外地,被配置用于与设备103、设备105和/或设备107通信的另一设备可以被配置用于实施一个或多个这种方法。在一些示例中,一个或多个所公开的方法可以由另一个本地设备(例如,环境100内的设备)实施,而在其他示例中,一个或多个所公开的方法可以由位于环境100之外的远程设备(例如,服务器)实施。

当说话者101说出指示声学空间中的唤醒词的声音102时,声音被附近的设备103、中距离设备105和远处的设备107接收。在该示例中,设备103、105和107中的每一个是(或者包括)唤醒词检测器,并且设备103、105和107中的每一个被配置为确定唤醒词可能性(唤醒词已被设备检测到的概率)何时超过预定义阈值。随着时间的推移,由每个设备确定的唤醒词可能性可以被绘制为时间的函数。

图2示出了由三个设备确定的唤醒词置信度值曲线的示例。图2中所示的虚线曲线205a指示如由近设备103确定的作为时间的函数的唤醒词可能性。短虚线曲线205b指示如由中距离设备105确定的作为时间的函数的唤醒词可能性。实曲线205c指示如由远处的设备107确定的作为时间的函数的唤醒词可能性。

从图2的检查中可以明显看出,随着时间的推移,由设备103、105和107中的每一个确定的唤醒词可能性增加,并且然后减少(例如,随着唤醒词可能性进出设备中的相关的一个设备的历史缓冲器)。在一些情况下,远处的设备的唤醒词置信度(图2中的实曲线)可以在中距离设备的唤醒词置信度(图2中的虚线曲线)之前超过阈值,其也可以在近设备的唤醒词置信度(图2中的短虚线曲线)之前超过阈值。当近设备的唤醒词置信度达到其局部最大值(例如,图2的相关曲线的最大值)时,这个事件通常被忽略(通过传统方法),以支持选择唤醒词置信度(唤醒词可能性)首先超过阈值的设备(图2示例中的远处的设备)。

根据一些示例,可以在确定唤醒词置信度值超过唤醒词检测开始阈值之后确定局部最大值,该唤醒词检测开始阈值可以是预定阈值。例如,参考图2,在一些这样的示例中,可以在确定唤醒词置信度值超过唤醒词检测开始阈值215a之后确定局部最大值。在一些这样的示例中,可以通过在先前的唤醒词置信度值已经超过唤醒词检测开始阈值之后检测唤醒词置信度值的降低来确定局部最大值。

在一些这样的实施方式中,可以通过在先前的唤醒词置信度值已经超过唤醒词检测开始阈值之后检测音频帧的唤醒词置信度值与先前的音频帧的唤醒词置信度值相比的降低来确定局部最大值,在一些情况下,该先前的音频帧可以是最近的音频帧或最近的音频帧之一。例如,可以通过在先前的唤醒词置信度值已经超过唤醒词检测开始阈值之后检测音频帧n的唤醒词置信度值与音频帧n-k的唤醒词置信度值相比的降低来确定局部最大值,其中k是整数。

根据一些这样的实施方式,一些方法可以涉及在第一设备、第二设备或另一个设备的唤醒词置信度值以上升沿超过唤醒词检测开始阈值之后启动局部最大值确定时间间隔。一些这样的方法可以涉及在第一设备、第二设备或另一个设备的唤醒词置信度值降至低于唤醒词检测结束阈值之后终止局部最大值确定时间间隔。

例如,再次参考图2,在一些这样的示例中,当对应于一组设备中的任何设备的唤醒词置信度值超过唤醒词检测开始阈值215a时,局部最大值确定时间间隔可以在开始时间A处启动。在该示例中,远处的设备是第一个具有唤醒词置信度值超过唤醒词检测开始阈值的设备,其时间A是曲线205c超过唤醒词检测开始阈值215a的时间。根据该示例,阈值215b是唤醒词检测结束阈值。在该示例中,唤醒词检测结束阈值215b小于(低于)唤醒词检测开始阈值215a。在一些替代示例中,唤醒词检测结束阈值215b可以等于唤醒词检测开始阈值215a。在又一些其他示例中,唤醒词检测结束阈值215b可以大于唤醒词检测开始阈值215a。

根据一些示例,局部最大值确定时间间隔可以在组中所有设备的唤醒词置信度值降至低于唤醒词检测结束阈值215b之后终止。例如,参考图2,当近设备的唤醒词置信度值降至低于唤醒词检测结束阈值215b时,局部最大值确定时间间隔可以等于K个时间单位并且可以在结束时间A+K处终止。到结束时间A+K时,远处的设备和中距离设备的唤醒词置信度值已经降至低于唤醒词检测结束阈值215b。根据一些示例,局部最大值确定时间间隔可以在组中所有设备的唤醒词置信度值降至低于唤醒词检测结束阈值215b时或者在最大时间间隔已经过去之后结束,以先到者为准。

图3是示出了能够实施本公开的各个方面的装置的部件的示例的框图。根据一些示例,装置300可以是或者可以包括智能音频设备(如图1A中所示的智能音频设备1.1之一或图1B中所示的智能音频设备103、105和107之一),该智能音频设备被配置用于执行本文所公开的方法中的至少一些方法。在其他实施方式中,装置300可以是或者可以包括被配置用于执行本文所公开的方法中的至少一些方法的另一个设备,如下文参考图7所描述的智能家居中枢740、膝上型计算机、蜂窝电话、平板设备、电机控制器(例如,用于风扇或能够使环境内的空气运动的其他设备的控制器、用于车库门的控制器等)、用于燃气壁炉的控制器(例如,被配置为改变燃气壁炉火焰等级的控制器)等。在一些这样的实施方式中,装置300可以是或者可以包括服务器。

在该示例中,装置300包括接口系统305和控制系统310。在一些实施方式中,接口系统305可以被配置用于从环境中的多个麦克风中的每一个接收输入。接口系统305可以包括一个或多个网络接口和/或一个或多个外部设备接口(如一个或多个通用串行总线(USB)接口)。根据一些实施方式,接口系统305可以包括一个或多个无线接口。接口系统305可以包括用于实施用户接口的一个或多个设备,如一个或多个麦克风、一个或多个扬声器、显示系统、触摸传感器系统和/或手势传感器系统。在一些示例中,接口系统305可以包括控制系统310与存储器系统(如图3中所示的可选存储器系统315)之间的一个或多个接口。然而,控制系统310可以包括存储器系统。

控制系统310例如可以包括通用单芯片或多芯片处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其他可编程逻辑设备、离散门或晶体管逻辑和/或离散硬件部件。

在一些实施方式中,控制系统310可以位于多于一个设备中。例如,控制系统310的一部分可以位于图1A和图1B中所描绘的环境之一内的设备中,并且控制系统310的另一部分可以位于环境之外的设备中,如服务器、移动设备(例如,智能电话或平板计算机)等。在其他示例中,控制系统310的一部分可以位于图1A和图1B中所描绘的环境之一内的设备中,并且控制系统310的另一部分可以位于环境内的另一个设备中。例如,如下文所指出的,在一些情况下,环境内的一个设备(例如,灯)可以提供对应于另一个设备(例如,IoT设备)的注意力信号。在一些这样的示例中,接口系统305也可以位于多于一个设备中。

在一些实施方式中,控制系统310可以被配置用于至少部分地执行本文所公开的方法。根据一些示例,控制系统310可以被配置用于实施产生多个空间变化的注意力信号的方法,例如,本文所公开的那些方法。在一些这样的示例中,控制系统310可以被配置用于确定至少一个设备的相关性度量。

本文所描述的一些或所有方法可以由一个或多个设备根据存储在一个或多个非暂态介质上的指令(例如,软件)来执行。这种非暂态介质可以包括如本文所描述的那些存储器设备,包括但不限于随机存取存储器(RAM)设备、只读存储器(ROM)设备等。一个或多个非暂态介质可以例如位于图3中所示的可选存储器系统315和/或控制系统310中。因此,可以在其上存储有软件的一个或多个非暂态介质中实施本公开中所描述的主题的各个创新方面。例如,软件可以包括用于控制至少一个设备来处理音频数据的指令。例如,软件可以由如图3的控制系统310等控制系统的一个或多个部件来执行。

在一些示例中,装置300可以包括图3中所示的可选麦克风系统320。可选麦克风系统320可以包括一个或多个麦克风。

在一些实施方式中,装置300可以包括图3中所示的可选灯系统325。可选灯系统325可以包括如发光二极管等一个或多个灯。根据一些实施方式中,装置300可以包括图3中所示的可选扬声器系统330。可选扬声器系统330可以包括一个或多个扬声器。在一些示例中,控制系统可以控制可选灯系统325和/或可选扬声器系统330来生成注意力信号。在一些这样的示例中,注意力信号可以指示装置300的相关性度量,或者另一个设备的相关性度量。

根据一些这样的示例,装置300可以是或者可以包括智能音频设备。在一些这样的实施方式中,装置300可以是或者可以包括唤醒词检测器。例如,装置300可以是或者可以包括虚拟助理。

图4是概述了可以由如图3中示出的至少一个装置执行的方法的一个示例的流程图。与本文所描述的其他方法一样,不必以所指示的顺序来执行方法400的框。在一些示例中,可以同时执行方法400的一个或多个框。根据一些这样的示例,方法400的一个或多个框可以由多个设备同时执行,例如,由如图3中所示的装置等设备执行。而且,这种方法可以包括比所示出和/或所描述的框更多或更少的框。

在该示例中,框405涉及从环境中的多个麦克风中的每个麦克风接收输出信号。在该示例中,多个麦克风中的每一个位于环境的麦克风位置,并且输出信号对应于人的话语。在一些示例中,话语可以是(或者包括)唤醒词。麦克风中的至少一个可以被包括在智能音频设备中或者被配置用于与智能音频设备通信。

在一些实施方式中,在框405中,单个设备可以从环境中的多个麦克风中的每个麦克风接收输出信号。根据一些这样的示例,单个设备可以位于环境中。然而,在其他示例中,单个设备可以位于环境之外。例如,在一些情况下,方法400的至少一部分可以由如服务器等远程设备来执行。

在其他实施方式中,在框405中,多个设备可以接收输出信号。在一些这样的实施方式中,在框405中,多个智能设备中的每一个的控制系统可以从每个智能设备的多个麦克风接收输出信号。

基于特定实施方式,环境中的不同设备的麦克风可以是也可以不是同步麦克风。如本文所使用的,如果麦克风检测到的声音使用相同的采样时钟或同步采样时钟进行数字采样,则麦克风可以被称为“同步的”。例如,环境内的第一麦克风(或第一组麦克风,如第一智能设备的所有麦克风)可以根据第一采样时钟对音频数据进行采样,并且第二麦克风(或第二组麦克风,如第二智能设备的所有麦克风)可以根据第一采样时钟对音频数据进行采样。

根据一些替代实施方式,环境的至少一些麦克风或麦克风系统可以是“异步的”。如本文所使用的,如果麦克风检测到的声音使用不同的采样时钟进行数字采样,则麦克风可以被称为“异步的”。例如,环境内的第一麦克风(或第一组麦克风,如第一智能设备的所有麦克风)可以根据第一采样时钟对音频数据进行采样,并且第二麦克风(或第二组麦克风,如第二智能设备的所有麦克风)可以根据第二采样时钟对音频数据进行采样。在一些情况下,环境中的麦克风可以随机定位,或者至少可以以不规则和/或不对称的方式分布在环境内。

在图4中所示的示例中,框410涉及至少部分地基于输出信号来确定环境内至少具有阈值概率包括人的位置的区。例如,参考图1A,在一些示例中,只有设备1.1包含麦克风并且因此可以接收用来估计发布唤醒词命令的用户(1.4)的位置的音频数据。使用各种方法,可以从这些设备聚集地获得信息以提供发布(例如,说出)唤醒词的用户的位置估计(例如,细粒度位置估计)。相关方法包括到达方向(DOA)估计方法,如到达时间差(TDOA)方法、波束成形方法(例如,最大方差波束成形器(MVB)与延迟和求和波束成形(DSB)),以及多源定位方法,如多信号分类(MUSIC,其是用于频率估计和无线电测向的算法)、转向响应功率相位变换(SRP-PHAT,其是基于波束成形的方法,用于搜索使转向延迟和求和波束成形器的输出最大化的候选位置)和经由旋转不变技术的信号参数估计(ESPRIT,其是确定背景噪声中正弦曲线混合的参数的技术)。

在这种生活空间中,有一组自然活动区,人将在其中执行任务或活动,或跨越阈值。这些动作区域(区)是可以估计用户的位置(例如,确定不确定的位置)或情况的作用以协助接口的其他方面的地方。在图1A示例中,关键动作区域是:

·厨房水槽和食物制备区域(在生活空间的左上区域中);

·冰箱门(在水槽和食物制备区域的右边);

·餐饮区域(在生活空间的左下方区域中);

·生活空间的开放区域(在水槽和食物制备区域和餐饮区域的右边);

·TV沙发(在开放区域的右边);

·TV本身;

·桌子;以及

·门区域或入户通道(在生活空间的右上方区域中)。

很明显,通常有具有类似定位的类似数量的灯以适应动作区域。一些或所有灯可以是单独可控的联网代理。

在一些示例中,目标不是估计用户的精确几何位置,而是形成离散区的抗差估计(robust estimate)(例如,在存在强噪声和残留回声的情况下)。如本文所使用的,环境中的对象或用户的“几何位置”是指基于坐标系的位置,无论坐标系是参考GPS坐标、参考整个环境(例如,根据其原点在环境中某处的笛卡尔坐标系或极坐标系)或参考环境内的特定设备(例如,根据以设备为其原点的笛卡尔坐标系或极坐标系),如智能音频设备。根据一些示例,可以在不参考多个麦克风的几何位置的情况下确定对用户在环境中的位置的估计。

在一些示例中,可以通过数据驱动的方法来估计用户的区,该方法涉及至少部分地从唤醒词检测器中的至少一个得到的多个高位声学特征。在一些实施方式中,这些声学特征(可以包括唤醒词置信度和/或接收水平)可以消耗非常少的带宽,并且可以被异步地传输到实施具有非常小的网络负载的分类器的设备。在2019年12月18日提交的并且标题为“Acoustic Zoning with Distributed Microphones[具有分布式麦克风的声学分区]”的美国临时专利申请号62/950,004中公开了一些示例,例如图1D和图2以及第15页第8行到第21页第29行的对应讨论,该美国临时专利申请通过引用并入本文。取决于特定实施方式,可以或可以不向分类器提供关于麦克风的几何位置的数据。如本文其他地方所指出的,在一些示例中,可以不参考多个麦克风的几何位置来确定对用户在环境中的位置的估计。

一些这样的方法可以涉及从环境中的多个麦克风中的每个麦克风接收输出信号。多个麦克风中的每一个可以位于环境的麦克风位置。在一些示例中,输出信号可以对应于用户的当前话语。

一些这样的方法可以涉及从每个麦克风的输出信号确定多个当前声学特征,并且将分类器应用于多个当前声学特征。应用分类器可以涉及应用在先前确定的声学特征上训练的模型,该声学特征是从由用户在环境中的多个用户区中发出的多个先前的话语中得到的。一些这样的方法可以涉及至少部分地基于来自分类器的输出来确定对用户当前所处的用户区的估计。用户区例如可以包括水槽区域、食物制备区域、冰箱区域、餐饮区域、沙发区域、电视区域和/或门口区域。

在一些示例中,多个麦克风中的第一麦克风可以根据第一采样时钟对音频数据进行采样,并且多个麦克风中的第二麦克风可以根据第二采样时钟对音频数据进行采样。在一些示例中,麦克风中的至少一个可以被包括在智能音频设备中或者被配置用于与智能音频设备通信。根据一些示例,多个用户区可以涉及多个预定用户区。

根据一些示例,可以在不参考多个麦克风的几何位置的情况下确定估计。在一些示例中,可以异步地确定多个当前声学特征。

在一些情况下,当前话语和/或先前话语可以包括唤醒词话语。在一些示例中,用户区可以被估计为具有最大后验概率(posterior probability)的类别。

根据一些实施方式,可以使用由用户区标记的训练数据来训练模型。在一些情况下,分类器可以涉及应用使用未由用户区标记的未标记训练数据训练的模型。在一些示例中,应用分类器可以涉及应用在归一化唤醒词置信度、归一化平均接收水平或最大接收水平中的一个或多个上训练的高斯混合模型(Gaussian Mixture Model)。

在一些示例中,模型的训练可以在应用分类器的过程期间继续。例如,训练可以基于来自用户的显式反馈。替代性地或另外地,训练可以基于隐式反馈,如关于基于估计的用户区的波束成形或麦克风选择的成功(或缺失)的隐式反馈。在一些示例中,隐式反馈可以包括确定用户已经异常地终止了语音助理的响应。根据一些实施方式,隐式反馈可以包括命令识别器返回低置信度结果。在一些情况下,隐式反馈可以包括返回已说出唤醒词的低置信度的第二道回顾性唤醒词检测器。

回到图4,在该示例中,框415涉及在区内生成多个空间变化的注意力信号。根据该示例,每个注意力信号由位于区内的设备生成,并且每个注意力信号指示对应的设备处于该对应的设备正在等待命令的操作模式下。此外,在该示例中,每个注意力信号指示对应的设备的“相关性度量”。

取决于特定实施方式,“对应的设备”可以是也可以不是提供注意力信号的设备。例如,虚拟助理可以包括扬声器系统和/或灯系统,并且可以被配置为经由扬声器系统和/或灯系统来生成指示虚拟助理的相关性度量的注意力信号。

在一些替代示例中,由第一设备生成的注意力信号可以指示第二设备的相关性度量。在这种示例中,第二设备是在框415中提及的“对应的设备”。参考图1A,如上文所指出的,一个或多个麦克风1.5可以是灯1.2和/或扬声器1.3中的一个的一部分或与其相关联。此外,一个或多个麦克风1.5可以附接到电器或环境的另一个设备,其中一些可以是能够至少部分地根据语音命令被控制的“智能设备”。在一些这样的示例中,灯1.2和/或扬声器1.3中的一个或多个(根据来自相关联的麦克风的输出信号被确定为在区内,如在框405和410中提及的)可以被配置为生成区内的环境的对应电器或其他设备(例如,IoT设备)的注意力信号。

在一些示例中,相关性度量可以至少部分地基于距某一位置的估计距离。在一些示例中,位置可以是在框405中提及的发出话语的人的估计位置。根据一些这样的示例,相关性度量可以至少部分地基于从人到对应于注意力信号的设备的估计距离。

在一些实施方式中,估计距离可以是从一个位置(例如,灯的位置、智能设备的位置等)到区内的多个麦克风的声学质心的估计距离。例如,估计距离可以是来自区内的麦克风的声学质心的估计欧几里德(Euclidean)距离。在其他情况下,估计距离可以是来自区内的麦克风的声学质心的估计马氏(Mahalanobis)距离。在另外的情况下,相关性度量可以是在其是麦克风的情况下给定灯会被分类为在给定区中相关联的后验概率。

在一些实施方式中,控制系统可以被配置为例如通过使用分类器来估计与话语相对应的特征组W(j)的后验概率p(Ck|W(j))。在一些这样的实施方式中,分类器可以是贝叶斯(Bayesian)分类器。概率p(Ck|W(j))可以指示用户在每个区Ck中的概率(对于第j个话语和第k个区,对于每个区Ck,以及每个话语)。这些概率是这种分类器的输出的示例。

在一些示例中,注意力表达的量可以与p(Ck|W(j))相关(例如,单调相关)。例如,在一些情况下,如果感兴趣的照明设备可以不包括任何麦克风,那么分类器可以基于照明设备和附近麦克风的相对位置来确定或估计代理。

根据一些示例,构建和/或更新区位置模型的过程可以包括以下各项:

1.收集与最近一组话语j=1...J(例如,在家庭中说出的最近200个唤醒词的组)相对应的一组区分类后验p(Ck|W(j)),以及说话者在组中(例如,在3D笛卡尔(Cartesian)空间中)的每个话语期间的估计位置xj;

2.计算(例如,3D笛卡尔空间中)每个区k的“声学质心”μk作为加权平均值以及

3.可选地,例如在假设笛卡尔空间上的多元高斯分布的情况下,计算每个区的“声学大小和形状”。在一些这样的示例中,过程可以涉及计算加权协方差矩阵,例如,如下:

然后,给定新位置y,控制系统可以被配置为利用区位置模型来执行以下中的一项或多项:

1.计算欧几里得距离并且使用dk(例如,以米为单位)作为相关性度量。一些这样的示例可以涉及通过将dk映射到范围[0,1]的单调函数f(dk)来传递dk。

2.计算马氏距离并且使用mk(以与质心的标准偏差为单位)作为相关性度量。一些这样的示例可以涉及通过将mk映射到范围[0,1]的单调函数g(mk)来传递mk。

3.评估位置y的多元高斯区k模型的概率密度:一些这样的示例可以涉及将每个区y的概率密度归一化为后验概率一些这样的实施方式可以涉及直接使用后验pk作为范围[0,1]内的区相关性度量。

根据一些示例,相关性度量可以至少部分地基于对应的设备的估计可见性。在一些这样的示例中,相关性度量可以至少部分地基于对应设备的提升,例如,对应设备距环境的地面的高度。根据一些这样的示例,如果人到两个设备的估计距离相同或基本上相同(例如,在如10%、8%、5%等阈值百分比内)并且一个设备的提升比其他设备的提升更高,则更高的设备将被分派更高的相关性度量。在一些这样的示例中,相关性度量的加权因子可以基于对应设备的估计可见性。例如,加权因子可以对应于与上述设备的从地板的相对距离。在其他示例中,可以根据人的相对位置和如内墙、家具等环境的一个或多个特征来确定对应的设备的估计可见性和对应的加权因子。例如,加权因子可以对应于从人的估计位置可以看到对应的设备的概率,例如基于已知环境布局、墙位置、家具位置、柜台位置等。

根据一些实施方式,相关性度量可以至少部分地基于对唤醒词置信度的估计。在一些这样的示例中,相关性度量可以对应于对唤醒词置信度的估计。根据一些这样的示例,唤醒词置信度单位可以是百分比、在范围[0,1]内的数字等。在一些情况下,唤醒词检测器可以使用对数实施方式。在一些这样的对数实施方式中,唤醒词置信度为零意味着已说出唤醒词的可能性与未说出唤醒词的可能性相同(例如,根据特定训练组)。在一些这样的实施方式中,增多的正数可以指示已说出唤醒词的置信度增加。例如,唤醒词置信度得分+30可以对应于非常高的已说出唤醒词的可能性。在一些这样的示例中,负数可能指示不太可能说出唤醒词。例如,唤醒词置信度得分-100可以对应于未说出唤醒词的可能性高。

在其他示例中,特定设备的相关性度量可以基于对该设备的唤醒词置信度的估计以及从人到设备的估计距离。例如,对唤醒词置信度的估计可以用作加权因子,该加权因子乘以估计距离以确定相关性度量。

注意力信号例如可以包括光信号。在一些这样的示例中,注意力信号可以根据颜色、颜色饱和度、光强度等在区内发生空间变化。在一些这样的示例中,注意力信号可以根据灯闪烁的速率在区内发生空间变化。例如,与闪烁较慢的灯相比,闪烁较快的灯可以指示对应设备的相关性度量相对较高。

替代性地或另外地,注意力信号例如可以包括声波。在一些这样的示例中,注意力信号可以根据频率、音量等在区内发生空间变化。在一些这样的示例中,注意力信号可以根据产生一系列声音的速率,例如,时间间隔内的哔哔声或啁啾声的数量,在区内发生空间变化。例如,与以较低速率产生的声音相比,以较高速率产生的声音可以指示对应的设备的相关性度量相对较高。

再次参考图4,在一些实施方式中,可选框420可以涉及至少部分地基于相关性度量的比较来选择用于后续音频处理的设备。在一些这样的实施方式,方法400可以涉及选择位于区内的设备的至少一个扬声器,并且控制至少一个扬声器向人提供声音。一些这样的实施方式可以涉及选择位于区内的设备的至少一个麦克风,并且向智能音频设备提供由至少一个麦克风输出的信号。在一些实施方式中,选择过程可以是自动的,而在其他示例中,选择可以根据例如来自发出话语的人的用户输入来进行。

根据一些示例,注意力信号可以包括在话语的时间之前对由区内的设备生成的至少一个先前的信号的调制。例如,如果灯具或光源系统先前已经发射光信号,则调制可以是颜色调制、颜色饱和度调制和/或光强度调制。如果先前的信号已经是声音信号,则调制可以包括水平或音量调制、频率调制等。在一些示例中,调制可以是风扇速度的变化、火焰大小的变化、电机转速的变化和/或空气流速的变化。

根据一些实施方式,调制可以是“隆起”。隆起可以是或者可以包括预定的信号调制序列。下文描述了一些详细的示例。一些这样的实施方式可以涉及在系统环境(例如,生活空间的灯、扬声器、风扇、壁炉等)中使用可变输出设备(在一些情况下,其可以是连续可变输出设备),该系统环境可以用于其他目的,但是能够围绕其当前操作点进行调制。一些示例可以提供(多个)可变注意力指示(例如,具有隆起的可变注意力信号),例如,以指示关注跨一组设备的变化表达(例如,变化量)。一些实施方式可以被配置为基于用户信号传输的估计强度和/或(多个)用户位置的置信度的函数来控制(多个)可变注意力信号(例如,隆起)。

图5是示出了根据一些实施方式的特征的示例的框图。在该示例中,图5指示可变信号传输强度505(例如,用户说出的唤醒词的信号传输强度)和可变信号源的位置510的可变概率。图5还指示了对不同智能音频设备(例如,虚拟助理)的可变信号传输的响应。设备在设备组520和525中,并且这些设备包括可激活灯或者与可激活灯相关联(例如,被配置用于与可激活灯通信)。如图5中所指示的,每个设备可以被包括在不同的组中。图5的“设备组”基于如休息室、厨房等对应的区。一个区可以包含多个音频设备和/或灯。区可以重叠,因此任何音频设备、灯等都可以位于多个区中。因此,代替或除了与设备相关联之外,灯、音频设备等可以与区相关联。某些灯、音频设备等可以更强(或更弱)地与每个区相关联,并且因此可以与不同的隆起百分比相关联。在一些示例中,隆起百分比可以对应于相关性度量。在一些实施方式中,这些相关性度量可以被手动地设置并且在表格中捕获,例如,如图5中所示。在其他示例中,可以从距离试探法(heuristic)或概率自动确定相关性度量,例如,如上文所描述的。

例如,响应于唤醒词(具有确定的强度并且具有以不确定性确定的原点位置),可以激活设备的两个不同的灯或者与设备相关联的两个不同的灯,以产生时变注意力信号。因为在该示例中,注意力信号部分地基于设备与唤醒词的原点位置之间的估计距离,该估计距离根据每个设备的位置而变化,所以注意力信号也是空间变化的。

在图5中所示的示例中,信号传输强度(505)可以对应于例如上文所讨论的“唤醒词置信度”。在该示例中,所有区(厨房、休息室等)510的位置概率对应于上文所讨论的区概率(例如,在范围[0,1]内)。图5示出了与每个区相对应的每个灯的不同的行为(可以对应于“相关性度量”)的示例。如果灯、音频设备等与多个区相关联,则在一些实施方式中,控制系统可以被配置为确定每个相关区的最大输出。

可变输出设备

不失一般性,表1(下文)指示了可用作可变的输出设备并且在一些情况下可用作连续可变的输出设备的设备的示例(例如,智能音频设备,其中每个智能音频设备包括可控发光、发声、发热、运动或振动的元件或者与其相关联(例如,被配置用于与其通信))。在这些示例中,每个可变输出设备的输出是时变注意力信号。表1指示了从每个设备发射或由其产生的声音、光、热、空气运动或振动(各自作为注意力信号)的一些调制范围。尽管单个数字用于指示一些范围,但是单个数字指示“隆起”期间的最大变化,并且因此指示从基线条件到指示的最大值或最小值的范围。这些范围仅作为示例而不是限制性的。然而,每个范围提供了在指示中的最小可检测变化和最大(命令的)关注指示的示例。

例如,在为每个模态确定了“注意力信号”(例如,在范围[0,1]内)后,可能存在来自该注意力信号的“注意力到隆起”的映射。在一些示例中,注意力到隆起的映射可以是单调映射。

在一些情况下,注意力到隆起的映射可以试探性地或实验性地设置(例如在测试对象的人口统计学代表组上),使得映射看起来“自然”,至少对于在测试程序期间提供反馈的一组个体来说是如此。例如,对于颜色变化模态,0.1的注意力可以对应于+20nm的色调,而1的注意力可以对应于+100nm的色调。可变色灯通常不会改变换能器的频率,而是可以替代地具有可以用不同的强度控制的单独的R、G、B LED,因此上述只是粗略的示例。表1提供了注意力对产生的物理现象的一些自然映射的一些示例,该物理现象通常会从模态到模态而不同。

表1

图6是示出了隆起的示例的图。如本文所提供的其他图一样,图600中所示的时间间隔、幅度等仅作为示例。在本文中,我们将“隆起”(参考注意力信号中的隆起)定义为确定(例如,预定)的信号调制序列,如注意力信号调制。在一些情况下,隆起可以包括注意力信号调制的不同包络(envelope)。隆起可以被设计成提供反映关注(或注意力)的自然节奏的注意力信号调制的时间。隆起的轨迹有时被设计成避免在边缘点处(例如,在隆起的开始和结束处)出现任何突然变化的感觉。

在图6中所示的该示例中,图600提供了注意力信号的隆起变化包络的示例,该包络在本文中也被称为隆起包络。隆起包络601包括冲击(attack)605,该冲击是在第一时间间隔期间注意力信号水平从基线水平603增加到局部最大水平607。在该示例中,第一时间间隔从时间=0到约时间=500ms。如表1中所指出的,局部最大水平607可以根据注意力信号的类型(例如,是光、声音还是其他)、信号将如何被调制(例如,光强度、颜色或颜色饱和度变化)以及注意力信号是旨在对应于“可检测的”条件还是“命令的”条件而变化。在其他示例中,如表1中所示的声音示例,隆起的第一时间间隔可以对应于注意力信号水平从基线水平603减少到局部最小水平。

在图6中所示的示例中,隆起包络601包括释放620,释放是注意力信号水平减少到基线水平603。根据该示例,释放620开始于约时间=N秒并且持续大约2秒。释放620的N和持续时间两者可以根据特定实施方式而变化。在一些示例中,N可以是4秒、5秒、6秒、7秒、8秒、9秒、10秒等。在一些情况下,N可以对环境中的条件做出响应。例如,如果说出唤醒词的人已经离开对应的设备所在的区,则释放620可以开始。在其他示例中,释放620的持续时间可以大于或小于2秒。

根据图6中所示的示例,隆起包络601包括衰减610,该衰减是注意力信号水平从局部最大水平607减少到介于局部最大水平607与基线水平603之间的中间或中水平幅度615。根据该示例,衰减610发生在约时间=500毫秒到约时间=1秒之间。

在这种情况下,隆起包络601还包括保持617,在保持期间,注意力信号水平保持不变。在一些实施方式中,注意力信号水平在保持617期间可以保持基本上相同,例如,可以保持在保持617开始时的注意力信号水平的确定百分比内(例如,在1%内、在2%内、在3%内、在4%内、在5%内等)。在图6中所示的示例中,保持617从约时间=1秒持续到约时间=N秒。

估计强度

在一些示例实施例中,注意力信号的归一化强度可以从0(对于唤醒词的阈值检测)变化到1(对于具有估计发声作用导致语音水平高于正常值15-20dB的唤醒词)。

用于调制设备隆起的功能

用于调制具有初始强度“输出”的注意力信号的隆起的函数的示例是:

输出=输出+隆起*置信度*强度,

其中参数隆起、置信度和强度可以随时间变化。

在引入用于表达关注的隆起步骤之前,如灯等物联网(IoT)的大量设备的控制本身是复杂的。考虑到这一点,已经设计了一些实施例,例如,在某种意义上,隆起通常是由于更广泛的场景或空间情况控制而发生的任何设置的短期附加增量。

在一些实施方式中,场景控制可以涉及占用,并且可以在与被选择用于表达关注的系统的控制相关的语音命令期间附加地成形。例如,如果区内有多于一个人,则音频注意力信号可以保持在相对较低的幅度范围内。

一些实施例提供了从隆起的实施方式来实施这种场景控制的方式。在一些实施方式中,可以根据单独的协议(换句话说,与用于控制设备功能的其他协议分开)来控制多个设备的注意力信号的隆起,从而使得设备能够参与人类关注循环以及针对生活空间的环境被控制。

一些实施例的方面可以包括以下各项:

-连续输出致动器;

-将智能音频设备指派到激活组中,在一些情况下,设备被指派到多于一个组;

-具有一个或多个经设计时间包络的隆起;

-由激活强度和区(或位置)置信度的简单函数控制的隆起范围。

可以如何控制虚拟助理(或其他智能音频设备)来展示在先前系统中没有很好表示的环境存在创建可测试标准的一些示例可以包括以下各项:

-可以公布(例如,在环境中的智能设备之间共享)基于对用户意图的估计或具有特定上下文信息(如说出唤醒词的位置和/或区)的虚拟助理的调用而计算的置信度得分(如唤醒词置信度得分),并且至少在一些示例中该置信度得分不直接用于控制设备;

-可以控制具有连续电控制的适当配备的设备,以使用该信息来“隆起”其现有状态,从而自然地和相互地做出响应;

-用于执行“隆起”的设备的自我委托(例如,设备自动发现和/或动态更新区)可以产生不需要位置和“区”的手动表的紧急响应,以及由低用户设置要求提供的额外的稳健性;以及

-通过统计样本的累积(例如,经由显式或隐式用户反馈)进行的连续估计、公布和增长的置信度使得系统能够创建存在的表象,在一些示例中,存在的表象可以自然地跨空间运动,并且在一些示例中,可以根据用户为解决助理而增加的作用进行调制。

图7示出了用于实施自动光学编排的系统的示例实施例。

图7的元件包括:

·700:图示了自动光学编排的示例家庭,这里是两个房间的公寓;

·701:客厅;

·702:卧室;

·703:客厅与卧室之间的墙。根据该示例,光不能在两个房间之间通过;

·704:客厅窗户。在白天的小时期间,日光经由该窗户照亮客厅;

·705A-C:照亮客厅的多个智能吊顶(例如,LED)灯;

·705D-F:每个吊顶灯被编排并且通过Wi-Fi(或另一种协议)与智能家居中枢740进行通信;

·706:客厅桌子;

·707:并入光传感器的客厅智能扬声器设备;

·707A:设备707由Wi-Fi(或另一种协议)编排并且通过Wi-Fi(或另一种协议)与智能家居中枢740通信;

·708A-C:从灯705A-C到设备707的受控光传播;

·709:从窗户704到设备707的不受控光传播;

·710:照亮卧室的智能吊顶LED灯;

·710A:卧室灯由Wi-Fi(或另一种协议)编排并且通过Wi-Fi(或另一种协议)与智能家居中枢740通信;

·711:盆栽植物;

·712:并入光传感器的IoT(物联网)自动浇水设备;

·712A:IoT浇水设备由Wi-Fi(或其他协议)编排并且通过Wi-Fi(或其他协议)与智能家居中枢740通信;

·713:卧室桌子;

·714:并入光传感器的卧室智能扬声器设备;

·714A:卧室智能扬声器由Wi-Fi或另一种协议编排并且通过Wi-Fi或另一种协议与智能家居中枢740通信;

·715:从卧室灯710到IoT浇水设备712的受控光传播;以及

·716:从卧室灯710到卧室智能扬声器714的受控光传播。

根据该示例,智能家居中枢740是上文参考图3所描述的装置300的实例。

图8是图示了图7的系统的操作方面的示例的一组图。图8的元件包括:

800:显示图7中所描绘的一组示例智能照明设备(分别为710、705A、705B和705C)的光强度设置(810、805A、805B和805C)的连续值的图。图800还在同一时间轴上显示了图7中所描绘的示例光传感器(分别为712、714和707)的连续光传感器读数(812、814和807);

810:智能照明设备710的连续控制的光强度输出。在下午6:00时的值对应于灯完全关闭;

805A:智能照明设备705A的连续控制的光强度输出。在下午6:00时的值对应于灯完全关闭;

805B:智能照明设备705B的连续控制的光强度输出。在下午6:00时的值对应于灯完全关闭;

805C:智能照明设备705C的连续控制的光强度输出。在下午6:00时的值对应于灯完全关闭;

812:示例光传感器712的连续光传感器读数。在下午6:00时的读数为低;

814:示例光传感器714的连续光传感器读数。在下午6:00时的读数为低;

807:示例光传感器707的连续光传感器读数。在下午6:00时的读数为高;

830:由于日光(709)通过窗户(704)进入,因此连续光传感器读数最初较高。随着黄昏的降临,环境光强度下降直到下午7:30;

820:当两个智能照明设备(705A、705B)响应于房间(706)中的弱光条件被用户打开时在下午7:30发生的事件。如迹线820A和820B所示,智能照明设备705A和705B的光强度增加。同时,在820C处的连续光传感器读数随着明显类似的响应增加;

821:当智能照明设备705A和706B被关闭时,事件820结束。相应地,迹线820A和820B返回到完全关闭,并且光传感器读数807返回低;

820A:当智能照明设备705A开启并且然后关闭时其光输出的增加和减少;

820B:当智能照明设备705B开启并且然后关闭时其光输出的增加和减少;

820C:响应于灯705A和灯705B被开启和关闭传感器707的光传感器读数的光输出的增加和减少;

822:当智能照明设备710开启并且然后关闭(823)时在下午8:00发生的事件。设备的光强度随着响应822A进行调制。然后,光传感器读数812和822随着明显类似的响应822B和822C进行调制;

824:当新智能照明设备705C连接到系统时在下午8:30发生的事件。光输出通过自动序列或者通过用户以824A所示的开/关模式手动控制光输出来调制;

824A:灯705C的经调制的输出模式;

824B:响应于智能灯705C的调制,连续光传感器707读取明显类似的响应824B;

825:事件824结束;

826:响应于用户请求,房间701中的灯被启用到约50%强度的昏暗设置。这些灯是705A、705B和705C,其50%的输出强度分别在迹线826A、826B和826C中示出。相应地,传感器707的连续光传感器读数随着明显类似的响应进行调制;以及

827:事件826结束。

随着这种设备的数量迅速激增,家庭和工作场所中的联网设备的管理和注册面临越来越大的挑战。照明、家具、电器、移动电话和可穿戴设备都变得越来越相连,并且目前安装和配置这种设备的手动方法是不可持续的。供应网络认证细节并将设备与用户账户和其他服务配对只是初始安装时需要的注册设备类型的一个示例。注册和安装的另一个常见步骤是将特定“区”或“组”指派给一组设备,将其组织成通常与如房间等特定物理空间相关联的逻辑类别。通常静态安装的照明和电器最常属于该类别。与将这些“区”或“组”指派给设备相关联的人工和附加安装步骤给用户带来了可用性挑战,并且降低了其作为商业产品的吸引力。

本公开认识到,这些逻辑分组和区在家庭自动化的环境中是有意义的,但是可能过于死板而不能提供用户在空间中导航时人/机交互期望的表达水平和流动性。在一些示例中,调制和隆起设备集合的连续可变输出参数以最好地表达关注的能力可能需要系统拥有关于这种设备的分布或相关性的一些知识,该知识比典型的刚性和手动指派的“区”更精细地粒化或更相关。在本文中,我们描述了通过聚合由多个传感器产生的读数和多个智能设备的连续输出配置的机会采样两者来自动映射这种分布的创造性方法。在本文中,我们以使用光的示例来促进讨论,因此使用具有附接到一个或多个智能设备的可数字化输出读数的一个或多个光敏部件,以及多个智能照明设备的自报告光强度和色调输出参数。然而,应当理解,如声音、温度(具有温度测量部件,以及智能连接的加热和冷却电器)等其他模态也是该方法和途径的可能实施例。

参考图7和图8,我们图示了使用光作为模态来创建将发光智能设备与采用集成或以其他方式物理附接的光传感器的智能助理设备相关的映射的示例场景。为了清楚起见,在下面的解释中,图7描绘了划分为两个离散区的示例环境。图8描述了为了分析的目的由系统测量的信号,以便确定将可控发光设备与采用光传感器的智能辅助设备相关的映射。

在我们的示例中,所有智能照明设备(710、705A、705B和705C)最初在下午6:00不发光,分别在迹线810、805A-C中可见。设备710、705A和705B目前都已经被安装并已经被映射,而705C是系统尚未映射的新设备。还描绘了三个智能设备(分别为712、714和707)的光传感器读数(812、814和807)。应当理解,竖直轴和水平轴(图8中)未按比例绘制,并且在这种情况下,光传感器读数可以没有与智能光输出参数相同的缩放比例。还应当理解,这里仅示出了光强度作为示例,并且一些公开的实施例还涵盖了光色调输出参数以及对光谱的不同部分进行采样的多个光传感器。

在我们的示例中,房间702是卧室,并且房间701是客厅。房间702包含一个智能发光设备710和两个具有光感测能力的智能设备712(IoT浇水设备)和714(智能扬声器)。房间701包含两个初始安装和映射的智能灯705A和705B,以及一个新的未映射的智能灯705C。房间702还包含一个具有光感测能力的智能扬声器设备707。房间702中还存在窗口704,产生不受控量的环境光。

在我们的示例中,所有智能设备被配备为通过家庭或本地网络经由WiFi或经由一些其他通信协议进行通信,并且在一个设备处收集或存储的信息可以被传输到编排中枢设备740。在下午6:00时,智能照明设备710、705A-C中的任何一个都不产生光,但是存在通过房间701中的窗口704发射的光。因此,房间702的光传感器读数低,而房间701的读数高。

将发生对应于照明条件变化的一系列事件,并且将证明光传感器读数的对应变化将足以在智能传感设备与智能发光设备之间建立基本映射。迹线820描绘了设备707的传感器读数随着太阳落山而减少,并且通过窗口704产生的光量(709)减少。在下午7:30,当用户打开客厅701中的灯时,事件820发生。因此,光输出805A和805B增加,如曲线820A和820B所示。相应地,光传感器读数807随着曲线820C而增加。值得注意的是,对应于相邻房间中的设备712和714的光传感器读数812和814不会因该事件而改变。当灯再次关闭时,事件在由821标记的水平时间处结束。

以类似于事件820的方式,事件822在下午8:00当卧室灯打开时开始。在该事件期间,卧室灯(710)的连续可变输出参数(810)随着曲线822A而增加。智能设备712和714的光传感器读数(812和814)也以对应的方式分别随着曲线822B和822C进行调制。值得注意的是,光传感器读数807不受影响,因为该光传感器读数在相邻房间中。在823处,当卧室灯710被关闭时,事件结束。

在下午8:30,未映射的客厅灯805C以周期性方式切换打开和关闭一小段时间。这种切换可以由照明设备本身自动启动,或者在智能中枢740的请求下启动,或者由用户使用物理开关手动启动,或者通过替代性地向设备供电和从设备移除电力启动。不管这种输出调制(可通过曲线824A识别)是如何实现的,设备705C的报告输出强度(805C)经由网络传送,以便与光传感器读数812、814和807聚合。如在事件820中,客厅中的唯一传感器(附接到设备707)反映输出调制824A,该输出调制在传感器读数中具有明显类似的图案824B。该事件在其开始后不久结束,如标记825所指示的。

利用系统到目前为止聚合的数据,可以推断未映射的智能灯705C与灯705A和705B密切相关。这是因为705A和705B通过光708A和708B的传输影响光传感器读数(807)的程度与由705C发射的光(708C)影响同一传感器的程度非常类似。相似度(由要更详细讨论的卷积过程确定)决定了光在多大程度上是共同定位的和上下文相关的。这种软决策和近似关系映射提供了如何为智能助理系统提供更细粒度的“分区”和空间感知的示例。

随着智能灯705C现在被有效地映射,在事件826中描绘了用户请求将所有“客厅”灯打开到50%强度的示例。所有三个客厅灯705A-C在50%输出下启用,在输出迹线805A-C中描绘并且遵循曲线826A-C。相应地,光传感器读数807也随着曲线826D进行调制。随着在设备输出中观察到的相关调制的累积以及所讨论的传感器的读数,设备被“映射”的程度将随着时间的推移而增加置信度。因此,即使新设备705C已经至少被理解为与705A和705B共存,对在初始设置周期之后发生的如826等事件的进一步分析应该被理解为用于构建空间的越来越详细和可信的空间地图的数据,该空间地图可以用于促进如本公开中先前讨论的表达性个人助理交互。

应当理解,光传感器可以并入特定滤波器,以更有选择地感测由消费者和商业LED照明设备产生的光,去除由如太阳等不可控光源产生的光谱。

应当理解,从系统的角度来看,示例中的824的事件是可选的。然而,在该示例中,设备映射到系统的速率与其调制输出参数的频率成比例。考虑到这一点,预期设备可以通过如824等高度可辨别调制事件更快地集成到系统的映射中,从信息论的角度来看,该事件对高度的信息进行编码。

一些实施例可以被配置为实施连续的(或至少连续的和/或周期性的)重新映射和细化。通过图7和图8的示例描述的事件捕捉到用户对“已经映射”的设备的常规使用以及新照明设备的安装两者。为了实施自动化设置和映射方法,系统优选地应当不需要用户干预或照明设备的手动操作。这就是为什么事件824(在图8中)可以由用户发起,或者等效地由智能灯本身通过其自己的判断或者通过来自中枢或其他外部编排设备的指令发起。这种明显可检测的调制事件携带了高度的信息,并且有助于将新设备快速引入到系统的映射中。

我们接下来讨论更微妙和补充的调制形式,该调制形式显然不受用户干预驱动,其在本文中被称为“普遍细化”。系统可以以缓慢运动的方式连续调整单个智能设备的输出参数,该缓慢移动的方式对于用户来说是最小可检测的,但是对于智能传感器来说是可辨别的,以便建立保真度越来越高的映射。与依赖用户以产生明确信息进行相互关联的方式操作系统不同,系统可以控制并且执行其自身对单个智能输出设备的调制,同样以对于用户来说仅是最小可检测的,并且对于传感器来说仍是可辨别的方式。

该方法的许多示例是可能的(具有光模态聚焦)。示例如下表所示:

在上文所描述的实施例的前提和操作下,我们接下来进一步详细描述连续输出设备与具有传感器的智能设备之间的映射(随时间)的发展。我们将“映射”H定义为配备传感器的智能设备与系统中的所有连续输出设备之间的归一化相似性度量。对于配备传感器的智能设备D{i}和智能输出设备L{j},我们可以将连续相似性度量G定义为:

0<=G(D{i},L{j})<=1,

其中,H是系统中的所有D{i}和L{j}的所有G的组:H={G(D{i},L{j})},对于所有i、j。

在此确立的情况下,可以看出,选择D{i}附近的离散区可以用0与1之间的二元阈值D来实现:

Z=所有j,使得G(D{i},L{j})>d。

已经建立了连续相似性度量G,允许区的概念变得具有流动性,并且我们不需要为了表达关注而将自己限制在离散区。因此,可以基于虚拟助理在交互期间期望的注意力或表达的程度来选择不同的d值。

再次参考图8,j=1...4的四个智能照明设备L{j}(710,705A,705B,705C)的已知光激活810、805A、805B、805C可以表示为I{j}[t]。在该示例中,来自i=l...3的其他智能设备D{i}(712,714,707)上的光传感器的光读数迹线812、814、807可以表示为S{i}[t]。

G(D{i},L{j})可以分别从离散采样的时间序列I[t]和S[t]、通过网络传送的输出设备参数和传感器读数中计算出来。可以以足够接近的定期间隔对I和S进行采样,以便对其进行有意义的比较。许多相似性度量通常假设零均值信号。然而,环境传感器(例如,环境照明条件)中通常存在恒定的环境偏移。

因此,也可以从I[t]和S[t]中得到信号I[t]’和S[t]’,并且从这些得到的信号中计算G。

例如,平滑的样本到样本增量可以表示如下:

I[t]’=(1-a)*I[t-1]’+a*(I[t]-I[t-1]);对于0<a<1

可以通过信号处理和统计领域的技术人员熟悉的许多方法来实现建立最近时间段T的这两个时间序列之间的相似性,例如,通过以下方法:

1.I[t]与S[t]之间的皮尔逊(Pearson)相关性系数(PCC或“r”),设置G=(l+PCC)/2,例如,如http://mathworld.wolfram.com/CorrelationCoefficient.html所描述的,其通过引用并入本文;

2.如1所述的方法,但是使用I和S的时间增量得到的版本;

3.如1所述的方法,但是使用I和S的平均删除版本;和/或

4.I和S两者上的动态时间扭曲,例如,如htps://en.wikipedia.org/wiki/Dynamic_time_warping所描述的(其通过引用并入本文),使用产生的距离度量作为G。

一些实施方式可以涉及自动更新确定设备是否在设备组中、设备是否在区中和/或人是否在区中的自动化过程。一些这样的实施方式可以涉及根据隐式反馈来更新自动化过程,该隐式反馈基于以下中的一个或多个:基于估计区的波束成形成功、基于估计区的麦克风选择成功、确定人已经异常地终止语音助理的响应、命令识别器返回低置信度结果或第二道回顾性唤醒词检测器返回已说出唤醒词的低置信度。

预测用户所处的用户区的目标可以是通知麦克风选择或适应的波束成形方案,该方案试图更有效地从用户的声学区拾取声音,例如,以便更好地识别唤醒词之后的命令。

在这种场景下,用于获得关于区预测的质量的反馈的隐式技术可以包括:

·惩罚导致错误识别唤醒词之后的命令的预测。可以指示错误识别的取代物可以包括用户例如通过像“Amanda,停止!”这样的反命令话语来缩短语音助理对命令的响应;

·惩罚导致言语识别器已成功识别命令的低置信度的预测。许多自动言语识别系统具有返回置信度水平的能力,其结果可以用于此目的;

·惩罚导致第二道唤醒词检测器未能以高置信度回顾性地检测唤醒词的预测;和/或

·强化使得高置信度地识别唤醒词和/或正确识别用户命令的预测。

下面是第二道唤醒词检测器未能以高置信度回顾性地检测唤醒词的示例。假设在从环境中的麦克风获得对应于当前话语的输出信号之后以及在基于该输出信号(例如,经由被配置用于与麦克风通信的多个第一道唤醒词检测器(first pass wakeword detector))确定声学特征之后,声学特征被提供给分类器。换句话说,声学特征被假定为与检测到的唤醒词话语相对应。进一步假设分类器确定说出当前话语的人最有可能在区3中,在该示例中,该区对应于阅读椅。例如,可能存在已知当人在区3中时最适合听取人的语音的特定麦克风或已知麦克风组合,例如以便发送到基于云的虚拟助理服务用于语音命令识别。

进一步假设在确定哪个(哪些)麦克风将用于言语识别之后,但是在人的言语实际发送到虚拟助理服务之前,第二道唤醒词检测器对麦克风信号进行操作,该麦克风信号对应于区3的(多个)所选麦克风检测到的您将要提交用于命令识别的语音。如果该第二道唤醒词检测器与实际说出唤醒词的您的多个第一道唤醒词检测器不一致,这可能是因为分类器错误地预测了区。因此,分类器应该被惩罚。

用于在已经说出一个或多个唤醒词之后对区映射模型进行后验更新的技术可以包括:

·高斯混合模型(GMM)或最近邻模型的最大后验(MAP)适配;和/或

·强化学习,例如神经网络的强化学习,其例如通过以下进行:将适当的“独热(one-hot)”(在正确预测中)或“独冷(one-cold)”(在不正确预测中)真实数据标签与SoftMax输出相关联,并且应用在线反向传播来确定新的网络权重。

在这种情况下,MAP适配的一些示例可以涉及在每次说出唤醒词时调整GMM中的平均值。以这种方式,平均值可以变得更像在说出后续唤醒词时观察到的声学特征。替代性地或另外地,这种示例可以涉及在每次说出唤醒词时调整GMM中的方差/协方差或混合权重信息。

例如,MAP适配方案可以如下:

μi,new=μii,old*α+x*(1-α)

在前述等式中,μi,old表示混合中第i个高斯的平均值,α表示控制MAP适配发生的积极程度的参数(α可以在范围[0.9,0.999]内),并且x表示新唤醒词话语的特征向量。索引“i”将对应于混合元件,该混合元件返回包含扬声器在唤醒词时间的位置的最高先验概率。

替代性地,每个混合元件可以根据其包含唤醒词的先验概率来调整,例如,如下:

Mi,new=μi,old*βi*x(1-βi)

在前述等式中,βi=α*(1-P(i)),其中P(i)表示观测值x是由于混合元件i的先验概率。

在一个强化学习示例中,可以有三个用户区。假设对于特定唤醒词,模型预测三个用户区的概率为[0.2,0.1,0.7]。如果第二信息源(例如,第二道唤醒词检测器)确认第三区是正确的,则真实数据标签可以是[0,0,1](“独热”)。区域映射模型的后验更新可以涉及通过神经网络反向传播误差,这实际上意味着如果再次显示相同的输入,则神经网络将更强烈地预测区3。相反,如果第二信息源显示区3是不正确的预测,则在一个示例中,真实数据标签可以是[0.5,0.5,0.0]。如果将来显示相同的输入,则通过神经网络反向传播误差将使模型不太可能预测区3。

替代性地或另外地,一些实施方式可以涉及根据来自人的显式反馈来自动更新自动化过程。用于获得反馈的显式技术可以包括:

·使用语音用户接口(UI)询问用户预测是否正确。(例如,可以向用户提供指示以下内容的声音:“我认为你在沙发上,请说‘对’或‘错’”)。

·通知用户不正确的预测可以在任何时候使用语音UI进行纠正。(例如,可以向用户提供指示以下内容的声音:“我现在能够预测你跟我说话的时候你在哪里。如果我预测错误,就说‘Amanda,我不在沙发上。我坐在阅读椅上’之类的话”)。

·通知用户正确的预测可以在任何时候使用语音UI进行奖励。(例如,可以向用户提供指示以下内容的声音:“我现在能够预测你跟我说话的时候你在哪里。如果我预测正确,你可以说‘Amanda,没错。我在沙发上’之类的话来帮助进一步改进我的预测。”)。

·包括用户可以操作以给出反馈的物理按钮或其他UI元件(例如,物理设备上或智能电话app中的拇指向上和/或拇指向下按钮)。

虽然在本文中已经描述了本公开的具体实施例和应用,但是对于本领域普通技术人员而言显而易见的是,在不脱离本公开的范围的情况下,可以对本文所描述的实施例和应用进行许多改变。


最新回复(0)