一种日语语音识别系统及识别方法与流程

专利查询2023-8-5 113

1.本发明涉及语音识别技术领域，具体为一种日语语音识别系统及识别方法。

背景技术：

2.随着移动终端及智能家居设备的普及，移动终端设备也朝着智能化方向发展，尤其是人与和智能终端的交互技术。其中，语音交互的方式因为其简单而且自然，是智能终端的发展趋势。要实现通过语音命令对智能终端进行控制，就需要使用到语音识别技术对语音命令转换成执行指令。日语由于其语音特殊性，在现有技术中，针对日语在移动终端上的语音识别通常有两种方法：
3.第一种方法，在移动终端上内置语音识别装置，但是在移动终端上，只是对输入的语音信号进行前端处理，处理后的语音发送到云端语音识别服务器进行语音识别，然后返回识别结果到移动终端进行处理。该方法存在两个问题，1、移动终端的语音识别依赖云端语音识别，严重依赖网络连接，及受网络质量的影响。由此带来的网络延时对语音识别的实时响应有一定的影响。2、在日语应用的移动终端设备中，由此带来的语音信息的隐私泄露，是很多移动终端产品所无法接受的；
4.第二种方法，在移动终端上内置不依赖网络的语音识别装置，直接在移动终端设备中采集语音信号进行语音识别。这种方法受限于移动终端产品的资源，一般只对移动终端设备中固定的语音指令进行识别。为了适配移动终端产品的本身资源，需要对固定的语音识别指令进行相应的语音指令样本采集及训练，灵活性比较差，而且制作一个日语的语音识别装置周期比较长，投入的成本也相应比较大。

技术实现要素：

5.本发明的目的在于提供一种日语语音识别系统及识别方法，以解决上述背景技术中提出的无网络延时对语音识别的实时响应有一定的影响，语音信息的隐私泄露，语音指令样本采集及训练，灵活性比较差的问题。
6.为实现上述目的，本发明广泛应用于语音识别的技术方案，特别是提供如下技术方案：一种日语语音识别系统，包括：
7.数据加工处理单元，所述数据加工处理包括日语语音数据集合、日语数据加工处理单元、日语三音子生成单元，
8.其中所述日语语音数据集合是用于在各种环境下收集的原始日语语音数据集，
9.所述日语数据加工处理单元用于经过数据标注、加噪声、去噪声后的数据集合，
10.所述日语三音子生成单元用于经过数据分割对齐后的日语三音子单元集，同时保存每个三音子及三音子之间的信息；
11.模型训练单元，所述模型训练单元包括日语指令集、日语训练数据选择单元、日语语音识别自动训练单元、日语语音识别自动调整训练单元，
12.其中所述日语指令集用于根据智能终端所需的语音指令，转化为日语可训练的三
音子序列，传给日语训练数据选择单元，
13.所述日语训练数据选择单元用于根据日语指令集的三音子序列，从数据加工处理单元中自动选择，候选训练的三音子语音数据，
14.所述日语语音识别自动训练单元用于根据选择三音子语音数据，进行日语三音子模型的训练，
15.所述日语语音识别自动调整训练单元用于在日语语音识别自动训练单元过程中，自动控制训练过程中所使用的训练三音子数据及训练的进程。
16.优选的，所述数据加工处理单元还包括日语语音数据抽取、日语语音降噪处理、日语语音加噪处理、日语三音子数据对齐切分、日语三音子聚类及聚类标注。
17.优选的，所述日语语音降噪处理，用于对收集的日语语音数据集合进行降噪处理，用于净化各种环境抽取出来的日语语音数据，和在线日语语音识别的时候匹配；
18.所述日语语音加噪处理，用于对经过降噪处理后日语语音数据集合，其中人为添加各种噪声数据，用于模拟实时终端设备在使用环境下的各种噪声，用于增强日语语音识别装置的识别鲁棒性和精度。
19.优选的，所述数据加工处理单元还包括日语三音子集合，所述日语三音子集合三是日语发音的基础单元，任何日语的发音均可以拆分为三音子的组合，将经过降噪和加噪后的日语语音数据集合和日语三音子集合，作为日语三音子数据对齐切分的输入。
20.优选的，所述日语三音子数据对齐切分，主要对前述处理后的日语语音数据集进行三音子切分和对齐，把日语语音数据集转换成三音子的语音样本集。
21.优选的，所述日语三音子聚类及聚类标注，对日语三音子数据对齐切分输出的按照三音子索引的所有语音数据，进行类内聚类和类间聚类，类内聚类主要针对日语中常用的三音子，其切分出来的数据样本数比较多，进一步对齐进行聚类，聚类成若干组，同时计算出每一类的类中心。
22.优选的，所述日语三音子聚类及聚类标注单元中，聚类时所采用的参数为，在语音数据切分对齐时候，神经网络输出的最后一层的参数；
23.其中所述日语三音子聚类及聚类标注单元中，聚类方法采用基于贝叶斯分类器。
24.优选的，所述模型训练单元还包括日语三音子序列生成、训练数据挑选、日语语音识别数据库管理器；
25.其中所述日语三音子序列生成针对输入的日语语音指令集合，利用日语词典，得到每一条指令的发音音子序列，然后将音子序列组合成该日语语音指令的三音子序列。
26.优选的，所述训练数据挑选和日语语音识别数据库管理器，负责从前面处理后的日语三音子数据库中，挑选出合适的日语语音三音子数据，用于后续的日语语音模型训练。
27.一种日语语音识别方法，包括以下方法：
28.步骤a301：输入日语语音数据，智能终端设备通过拾音设备，采集到日语的语音数据，经过相应处理后，发送给日语语音识别器；
29.步骤a302：日语语音指令集，为具体终端设备所需要的识别的日语语音指令，不仅包含日语语音指令文本，还包含了其拆分出来的与指令对应的三音子序列；
30.步骤a303：日语语音识别模型，针对输入日语语音指令集训练生成的对应的日语语音识别模型；
31.步骤a304：日语语音识别器，实时从日语语音输入单元中接收日语数据，和日语语音识别模型中的每个三音子模型进行比对，根据比对结果，给予比对后的概率值，同时得到当前输入语音的三音子识别结果；
32.步骤a305：再根据步骤a304一段时间的比对结果，和日语语音指令集中的三音子序列再次进行比对，确认是否为语音指令集中的指令，如果是的话，就输出该日语指令的结果，否则就不输出结果。
33.优选的，在所述步骤a301中，智能终端采集的日语语音数据，在前端进行处理的过程同前述的日语语音数据库加工成立过程一致。
34.与现有技术相比，本发明的有益效果是：
35.本发明通过日语数据加工处理单元获得，经过标注后的可用的日语语音识别数据；日语三音子数据生成单元将日语数据集通过自动分割和聚类方式，生成可重复利用的日语语音识别训练单元；日语语音识别自动训练单元单元根据日语语音识别指令集，自动从数据集中选取训练数据单元进行训练；日语语音识别自动调整训练单元单元在日语语音识别模型训练过程中自动调整数据单元，从而提高整个日语语音识别的精度。
附图说明
36.图1为本发明的日语语音识别系统实施例结构示意图；
37.图2为本发明的数据集加工处理单元的实施例结构框图；
38.图3为本发明的日语语音模型训练单元的实施例的结构示意图；
39.图4为本发明的日语语音识别方法的实施例的流程结构示意图。
具体实施方式
40.下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
41.请参阅图1，为本发明中一种日语语音识别系统实施例结构示意图。
42.如图1所示，该系统包括：数据加工处理单元101和模型训练单元201。其中数据加工处理单元101包含：日语语音数据集合1011、日语数据加工处理单元1012、日语三音子生成单元1013。模型训练单元201包含：日语指令集2011、日语训练数据选择单元2012、日语语音识别自动训练2013、日语语音识别自动调整训练2014。
43.其中，数据加工处理单元101用于生成可重复利用的日语语音识别数据集合；
44.日语语音数据集合1011是各种环境下收集的原始日语语音数据集，日语数据加工处理单元1012是经过数据标注、加噪声、去噪声后的数据集合，日语三音子生成单元1013是经过数据分割对齐后的日语三音子单元集，同时保存每个三音子及三音子之间的信息。
45.所述模型训练单元201是一种日语语音识别的训练单元，其中模型训练单元包括日语指令集2011、日语训练数据选择单元、日语语音识别自动训练单元、日语语音识别自动调整训练单元；
46.日语指令集2011是根据智能终端所需的语音指令，转化为日语可训练的三音子序
列，传给日语训练数据选择单元2012；
47.日语训练数据选择单元2012是根据日语指令集的三音子序列从数据加工处理单元101中，自动选择候选训练的日语三音子语音数据；
48.日语语音识别自动训练2013是根据选择三音子语音数据，进行日语三音子模型的训练，日语语音识别自动调整训练2014是用于在日语语音识别自动训练2013过程中，自动控制训练过程中所使用的训练三音子数据及训练的进程。
49.实施例1：
50.参阅图2所示，图2为本发明中数据加工处理单元101的结构示意框图。
51.所述加工处理单元101包含：日语语音数据抽取、日语语音降噪处理1012_1、日语语音加噪处理1012_2、日语三音子切分对齐1013_1、日语三音子聚类及聚类标注1013_2。
52.其中日语语音降噪处理1012_1，用于对收集的日语语音数据集合进行降噪处理，用于净化各种环境抽取出来的日语语音数据，和在线日语语音识别的时候匹配。这里日语语音降噪处理1012_1采用omlsa(optimally modified log-spectral amplitude)进行处理，可以参考文献(以下简称文献1)：
53.israel cohen，optimal speech enhancement under signal presence uncertainty using log-spectral amplitude estimator，ieee signal processing letters,vol.9,no.4,april 2002。
54.进一步的，日语语音加噪处理1012_2单元，用于对经过降噪处理后日语语音数据集合，人为添加各种噪声数据，用于模拟实时终端设备在使用环境下的各种噪声，用于增强日语语音识别装置的识别鲁棒性和精度。
55.日语三音子集合是日语发音的基础单元，任何日语的发音均可以拆分为三音子的组合。本发明中，我们利用open jtalk中的日语发音定义，将日文所有发音划分为1124个三音子发音单元。
56.本发明实施例中，将经过降噪和加噪后的日语语音数据集合1012_2和日语三音子集合，作为日语三音子数据对齐切分1013_1的输入。
57.进一步的，日语三音子数据对齐切分1013_1，主要对前述处理后的日语语音数据集进行三音子切分和对齐，把日语语音数据集转换成三音子的语音样本集。这里需要对日语语音数据集进行对齐操作，具体为根据语音的文本标注，采用语音识别方法，将输入语音数据分割成一个个的三音子。如输入一段语音为
“よびだす”
(打电话)，语音长度为1秒钟，那么经过切分对齐后，可以得到
“よ”
(40～120毫秒)，
“び”
(“120～360毫秒”)，
“だす”
(360～740毫秒)。经过切分对齐处理后，我们按照三音子作为索引，得到所有三音子的样本。
58.进一步的，日语三音子聚类及聚类标注1013_2，对日语三音子数据对齐切分1013_1输出的按照三音子索引的所有语音数据，进行类内聚类和类间聚类，类内聚类主要针对日语中常用的三音子，其切分出来的数据样本数比较多，进一步对齐进行聚类，聚类成若干组，同时计算出每一类的类中心。类间聚类则是对不同的三音子进行进一步聚类，计算出每类三音子两两之间的类间距。最后，计算出每一个三音子样本和每一个类的类中心的相似程度。
59.进一步的，日语三音子聚类及聚类标注1013_2单元中，聚类时所采用的参数为，在语音数据切分对齐时候，神经网络输出的最后一层的参数。这里也可以是语音识别时所使
用的fbank参数。
60.进一步的，其中，日语三音子聚类及聚类标注1013_2单元中，聚类方法采用基于贝叶斯分类器，这里不再详细描述，也可以采用knn、欧氏距离等其他方法。
61.进一步的，本发明中数据加工处理单元101，输出的三音子数据，对每个三音子，标注其所属的大类，以及在大类中小类别，同时标注该三音子和其他三音子大类和小类中的间距。对不同的三音子类别，标注类别间的类间距。
62.实施例2：
63.参示图3所示，图3为本发明中模型训练单元201的结构示意框图。
64.所述模型训练单元201包含：日语指令集2011_1、日语三音子序列生成2011_2、训练数据挑选2012_1、日语语音识别数据库管理器2012_2、日语语音识别自动训练单元2013和日语语音识别自动调整训练单元2014。
65.进一步的，本发明中，日语语音指令集2011_1，为智能终端所需要识别的日语语音指令集合。如“電気
をつけて”
(开灯)为其中的一条指令。指令集合中，使用文本形式存储，每一行为一条指令，有多条指令可以存储为多行形式。
66.进一步的，本发明中，日语三音子序列生成2011_2，针对输入的日语语音指令集合，利用日语词典，得到每一条指令的发音音子序列，然后将音子序列组合成该日语语音指令的三音子序列。
67.进一步的，在生成发音指令三音子序列后，训练数据挑选2012_1和日语语音识别数据库管理器2012_2负责从前面处理后的日语三音子数据库中挑选出合适的日语语音三音子数据，用于后续的日语语音模型训练。
68.进一步的，本发明中，训练数据挑选2012_1，根据生成的日语指令三音子序列，从日语语音识别数据库管理器2012_2中挑选出对应的三音子训练数据。日语语音识别数据库管理器2012_2根据挑选的数据结果，根据挑选数据的种类、个数以及数据分布，自动调整最终选择的数据集合，最终的数据集合会在三音子的数据数量、数据分布、是否常用性等方面取得均衡。
69.其中，日语语音识别数据库管理器2012_2，进一步说明，我们将该单元做成一个数据库管理模块，这样可以通过标准的数据库语言进行操作。确保可自动编程实现，无需人工干预。
70.进一步的，本发明中，日语语音识别自动训练单元2013，是对挑选出来的三音子数据集，进行三音子模型的训练。其过程为：挑选后的数据先经过特征提取和数据shuffer处理，这样可以加速后续的训练速度，然后送给神经网络训练单元。这里，我们采用的是cnn+lstm的网络架构，具体可参考文献：
71.christian bartz,tom herold,haojin yang and christoph meinel，language identification using deep convolutional recurrent neural networks，published in iconip 2017computer science.
72.这里，由于训练的网络架构比较灵活，也可以换成其他的网络架构，不局限于cnn+lstm的架构。
73.进一步的，本发明中，日语语音识别自动调整训练单元2014，是在日语语音识别自动训练单元2013的训练过程中，自动对中间的训练结果进行监测，根据监测结果，自动对训
练过程进行干预及调整。主要在两方面调整，对训练数据充足，训练充分的单元，则在后续的训练迭代中，限定只使用确信度高的数据进行训练，同时限定后续训练的调整力度。对训练不太充分的单元，则从日语语音识别数据库管理器2012_2中，自动添加和该类最为接近的数据参与后续的训练，同时增大后续训练力度和增加新的训练后验证数据。
74.实施例3：
75.参况图4，为本发明中日语语音识别方法的实施例的流程示意图。如图4所示，该方法包含：
76.步骤a301：智能终端设备通过拾音设备(如麦克风)，采集到日语的语音数据，经过相应处理后，发送给日语语音识别器步骤a304。
77.其中，步骤a301，智能终端采集的日语语音数据，在前端进行处理的过程同前述的日语语音数据库加工成立过程一致；
78.步骤a302：日语语音指令集为具体终端设备所需要的识别的日语语音指令，不仅包含日语语音指令文本，还包含了其拆分出来的与指令对应的三音子序列。此处一个日语语音指令可以对应多个日语三音子序列，主要考虑实际日语发音中的多变形；
79.步骤a303：根据一个实施例，步骤a303包含了针对输入日语语音指令集训练生成的对应的日语语音识别模型；
80.步骤a304：日语语音识别器在实时从日语语音输入单元中接收日语数据，和日语语音识别模型中的每个三音子模型进行比对；
81.根据比对结果，给予比对后的概率值，同时得到当前输入语音的三音子识别结果；
82.步骤a305：根据一小段时间的比对结果，和日语语音指令集中的三音子序列再次进行比对，确认是否为语音指令集中的指令，如果是的话，就输出该日语指令的结果，否则就不输出结果。
83.对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

技术特征：
1.一种日语语音识别系统，其特征在于：包括：数据加工处理单元，所述数据加工处理包括日语语音数据集合、日语数据加工处理单元、日语三音子生成单元，其中所述日语语音数据集合是用于在各种环境下收集的原始日语语音数据集，所述日语数据加工处理单元用于经过数据标注、加噪声、去噪声后的数据集合，所述日语三音子生成单元用于经过数据分割对齐后的日语三音子单元集，同时保存每个三音子及三音子之间的信息；模型训练单元，所述模型训练单元包括日语指令集、日语训练数据选择单元、日语语音识别自动训练单元、日语语音识别自动调整训练单元，其中所述日语指令集用于根据智能终端所需的语音指令，转化为日语可训练的三音子序列，传给日语训练数据选择单元，所述日语训练数据选择单元用于根据日语指令集的三音子序列，从数据加工处理单元中自动选择，候选训练的三音子语音数据，所述日语语音识别自动训练单元用于根据选择三音子语音数据，进行日语三音子模型的训练，所述日语语音识别自动调整训练单元用于在日语语音识别自动训练单元过程中，自动控制训练过程中所使用的训练三音子数据及训练的进程。2.根据权利要求1所述的一种日语语音识别系统，其特征在于：所述数据加工处理单元还包括日语语音数据抽取、日语语音降噪处理、日语语音加噪处理、日语三音子数据对齐切分、日语三音子聚类及聚类标注。3.根据权利要求2所述的一种日语语音识别系统，其特征在于：所述日语语音降噪处理，用于对收集的日语语音数据集合进行降噪处理，用于净化各种环境抽取出来的日语语音数据，和在线日语语音识别的时候匹配；所述日语语音加噪处理，用于对经过降噪处理后日语语音数据集合，其中人为添加各种噪声数据，用于模拟实时终端设备在使用环境下的各种噪声，用于增强日语语音识别装置的识别鲁棒性和精度。4.根据权利要求3所述的一种日语语音识别系统，其特征在于：所述数据加工处理单元还包括日语三音子集合，所述日语三音子集合三是日语发音的基础单元，任何日语的发音均可以拆分为三音子的组合，将经过降噪和加噪后的日语语音数据集合和日语三音子集合，作为日语三音子数据对齐切分的输入。5.根据权利要求2所述的一种日语语音识别系统，其特征在于：所述日语三音子数据对齐切分，主要对前述处理后的日语语音数据集进行三音子切分和对齐，把日语语音数据集转换成三音子的语音样本集。6.根据权利要求2所述的一种日语语音识别系统及识别方法，其特征在于：所述日语三音子聚类及聚类标注，对日语三音子数据对齐切分输出的按照三音子索引的所有语音数据，进行类内聚类和类间聚类，类内聚类主要针对日语中常用的三音子，其切分出来的数据样本数比较多，进一步对齐进行聚类，聚类成若干组，同时计算出每一类的类中心。7.根据权利要求6所述的一种日语语音识别系统，其特征在于：所述日语三音子聚类及聚类标注单元中，聚类时所采用的参数为，在语音数据切分对齐时候，神经网络输出的最后
一层的参数；其中所述日语三音子聚类及聚类标注单元中，聚类方法采用基于贝叶斯分类器。8.根据权利要求1所述的一种日语语音识别系统，其特征在于：所述模型训练单元还包括日语三音子序列生成、训练数据挑选、日语语音识别数据库管理器；其中所述日语三音子序列生成针对输入的日语语音指令集合，利用日语词典，得到每一条指令的发音音子序列，然后将音子序列组合成该日语语音指令的三音子序列。9.根据权利要求8所述的一种日语语音识别系统，其特征在于：所述训练数据挑选和日语语音识别数据库管理器，负责从前面处理后的日语三音子数据库中，挑选出合适的日语语音三音子数据，用于后续的日语语音模型训练。10.根据权利要求1至9所述的任一一项权利要求所述的一种日语语音识别方法，其特征在于：包括以下步骤：步骤a301：输入日语语音数据，智能终端设备通过拾音设备，采集到日语的语音数据，经过相应处理后，发送给日语语音识别器；步骤a302：日语语音指令集，为具体终端设备所需要的识别的日语语音指令，不仅包含日语语音指令文本，还包含了其拆分出来的与指令对应的三音子序列；步骤a303：日语语音识别模型，针对输入日语语音指令集训练生成的对应的日语语音识别模型；步骤a304：日语语音识别器，实时从日语语音输入单元中接收日语数据，和日语语音识别模型中的每个三音子模型进行比对，根据比对结果，给予比对后的概率值，同时得到当前输入语音的三音子识别结果；步骤a305：再根据步骤a304一段时间的比对结果，和日语语音指令集中的三音子序列再次进行比对，确认是否为语音指令集中的指令，如果是的话，就输出该日语指令的结果，否则就不输出结果。

技术总结
本发明涉及语音识别技术领域，具体为一种日语语音识别系统，包括数据加工处理单元，所述数据加工处理包括日语语音数据集合、日语数据加工处理单元、日语三音子生成单元，其中所述日语语音数据集合是用于在各种环境下收集的原始日语语音数据集，所述日语数据加工处理单元用于经过数据标注、加噪声、去噪声后的数据集合，所述日语三音子生成单元用于经过数据分割对齐后的日语三音子单元集，同时保存每个三音子及三音子之间的信息。三音子及三音子之间的信息。三音子及三音子之间的信息。

技术研发人员：付书凡蒋少敏易兴文
受保护的技术使用者：深圳市瑞凡微电子科技有限公司
技术研发日：2021.12.17
技术公布日：2022/3/8

专利

最新回复(0)