节拍重拍联合检测模型的训练及节拍重拍联合检测方法与流程

专利查询2022-12-30  173



1.本公开涉及音频处理领域,尤其涉及一种节拍重拍联合检测模型的训练及节拍重拍联合检测方法。


背景技术:

2.在音乐中,节拍(beat)是音乐中表示固定单位时值和强弱规律的组织形式,它定义了音乐作品的韵律结构,而节奏以重拍和非重拍的重复序列为特征,重拍(downbeat)是指音乐中的强拍。目前已经有相当多的研究集中在寻找音乐的节拍上,但对追踪重拍(downbeat)所做的努力却少得多。在西方音乐中,重拍通常和和弦变化或和声变化相吻合,因此节拍重拍联合检测对音乐分析、音乐结构划、自动配乐甚至是一些创意卡点视频制作,节拍主导的灯光秀等实际应用场景中都是至关重要的。
3.目前,基于深度学习的节拍检测算法解决了部分传统算法的问题,不需要估计音符起始点的位置,依赖于更少的先验知识,并且在一度程度上提升重拍检测的准确度。但是由于音乐种类众多,各类音乐的重拍特征都不一致,因此重拍的检测正确率仍然要远远小于节拍检测的正确率,造成重拍的检测正确率仍然较低。


技术实现要素:

4.本公开提供一种节拍重拍联合检测模型的训练及节拍重拍联合检测方法,以至少解决相关技术重拍检测的正确率低的问题。
5.根据本公开实施例的第一方面,提供一种节拍重拍联合检测模型的训练方法,节拍重拍联合检测模型包括节拍检测网络和重拍检测网络,训练方法包括:获取训练样本集,其中,训练样本集中包括多个样本音频信号和每个样本音频信号对应的节拍标注信息和重拍标注信息;将样本音频信号的音频特征输入节拍检测网络,得到样本音频信号中每帧数据的节拍点预测概率,其中,节拍点预测概率表示样本音频信号中每帧数据是节拍点的预测概率;将样本音频信号的音频特征输入到重拍检测网络,得到样本音频信号中每帧数据的重拍点预测概率,其中,重拍点预测概率表示样本音频信号中每帧数据是重拍点的预测概率;基于节拍点预测概率、重拍点预测概率、对应的节拍标注信息和重拍标注信息,计算目标损失函数的值;根据目标损失函数的值,对节拍检测网络和重拍检测网络进行联合训练,得到训练完成的节拍重拍联合检测模型。
6.可选地,将样本音频信号的音频特征输入节拍检测网络,得到样本音频信号中每帧数据的节拍点预测概率,包括:将样本音频信号的音频特征输入节拍检测网络,得到节拍检测网络的至少一个中间层输出的全局特征以及样本音频信号中每帧数据的节拍点预测概率;其中,将样本音频信号的音频特征输入到重拍检测网络,得到样本音频信号中每帧数据的重拍点预测概率,包括:将样本音频信号的音频特征和全局特征输入到重拍检测网络,得到样本音频信号中每帧数据的重拍点预测概率。
7.可选地,将样本音频信号的音频特征和全局特征输入到重拍检测网络,包括:将样
本音频信号的音频特征输入到重拍检测网络的输入层;针对重拍检测网络的至少一个中间层的每个中间层,将当前中间层输出的第一全局特征和节拍检测网络中与当前中间层对应的中间层输出的第二全局特征进行拼接,得到第一拼接全局特征,并将第一拼接全局特征输入到当前中间层的下一中间层。
8.可选地,节拍重拍联合检测模型还包括预先训练好的风格分类网络,风格分类网络用于获取样本音频信号的音乐类型;其中,将样本音频信号的音频特征输入节拍检测网络,包括:将样本音频信号的音频特征输入到风格分类网络,得到风格分类网络中的至少一个中间层输出的第一中间特征;将样本音频信号的音频特征和第一中间特征输入到节拍检测网络。
9.可选地,将样本音频信号的音频特征和第一中间特征输入到节拍检测网络,包括:将样本音频信号的音频特征输入到节拍检测网络的输入层;针对节拍检测网络中的至少一个中间层的每个中间层,将当前中间层输出的第三全局特征和风格分类网络中与当前中间层对应的中间层输出的第一中间特征拼接,得到第二拼接全局特征,并将第二拼接全局特征输入到当前中间层的下一中间层。
10.可选地,节拍重拍联合检测模型还包括预先训练好的摇摆检测网络,摇摆检测网络用于获取样本音频信号的重拍和音量关系;其中,将样本音频信号的音频特征和全局特征输入到重拍检测网络包括:将样本音频信号的音频特征输入到摇摆检测网络,得到摇摆检测网络中的至少一个中间层输出的第二中间特征;将样本音频信号的音频特征、全局特征和第二中间特征输入到重拍检测网络。
11.可选地,将样本音频信号的音频特征、全局特征和第二中间特征输入到重拍检测网络,包括:将样本音频信号的音频特征输入到重拍检测网络的输入层;针对重拍检测网络的至少一个中间层的每个中间层,将当前中间层输出的第四全局特征、摇摆检测网络中与当前中间层对应的中间层输出的第二中间特征和节拍检测网络中与当前中间层对应的中间层输出的第五全局特征进行拼接,得到第三拼接全局特征,并将第三拼接全局特征输入到当前中间层的下一中间层。
12.可选地,基于节拍点预测概率、重拍点预测概率、对应的节拍标注信息和重拍标注信息,计算目标损失函数的值,包括:基于节拍点预测概率和对应的节拍标注信息,计算第一目标损失函数的值;基于重拍点预测概率和对应的重拍标注信息,计算第二目标损失函数的值;将第一目标损失函数的值和第二目标损失函数的值相加,得到目标损失函数的值。
13.根据本公开实施例的第二方面,提供一种节拍重拍联合检测方法,节拍重拍联合检测方法利用预先训练的节拍重拍联合检测模型执行节拍重拍联合检测,节拍重拍联合检测模型包括节拍检测网络和重拍检测网络,节拍重拍联合检测方法包括:获取待处理的音频信号;将待处理的音频信号的音频特征输入节拍检测网络,得到待处理的音频信号中每帧数据的节拍点概率,其中,节拍点概率表示待处理的音频信号中每帧数据是节拍点的概率;将待处理的音频信号的音频特征输入到重拍检测网络,得到待处理的音频信号中每帧数据的重拍点概率,其中,重拍点概率表示待处理的音频信号中每帧数据是重拍点的概率。
14.可选地,将待处理的音频信号的音频特征输入节拍检测网络,得到待处理的音频信号中每帧数据的节拍点概率,包括:将待处理的音频信号的音频特征输入节拍检测网络,得到节拍检测网络的至少一个中间层输出的全局特征以及待处理的音频信号中每帧数据
的节拍点概率;其中,将待处理的音频信号的音频特征输入到重拍检测网络,得到待处理的音频信号中每帧数据的重拍点预测概率,包括:将待处理的音频信号的音频特征和全局特征输入到重拍检测网络,得到待处理的音频信号中每帧数据的重拍点预测概率。
15.可选地,将待处理的音频信号的音频特征和全局特征输入到重拍检测网络,包括:将待处理的音频信号的音频特征输入到重拍检测网络的输入层;针对重拍检测网络的至少一个中间层的每个中间层,将当前中间层输出的第一全局特征和节拍检测网络中与当前中间层对应的中间层输出的第二全局特征进行拼接,得到第一拼接全局特征,并将第一拼接全局特征输入到当前中间层的下一中间层。
16.可选地,节拍重拍联合检测模型还包括预先训练好的风格分类网络;其中,将待处理的音频信号的音频特征输入节拍检测网络,风格分类网络用于获取音频信号的音乐类型,包括:将待处理的音频信号的音频特征输入到风格分类网络,得到风格分类网络中的至少一个中间层输出的第一中间特征;将待处理的音频信号的音频特征和第一中间特征输入到节拍检测网络。
17.可选地,将待处理的音频信号的音频特征和第一中间特征输入到节拍检测网络,包括:将待处理的音频信号的音频特征输入到节拍检测网络的输入层征;针对节拍检测网络中的至少一个中间层的每个中间层,将当前中间层输出的第三全局特征和风格分类网络中与当前中间层对应的中间层输出的第一中间特征进行拼接,得到第二拼接全局特征,并将第二拼接全局特征输入到当前中间层的下一中间层。
18.可选地,节拍重拍联合检测模型还包括预先训练好的摇摆检测网络;其中,将待处理的音频信号的音频特征和全局特征输入到重拍检测网络,摇摆检测网络用于获取音频信号的重拍和音量关系,包括:将待处理的音频信号的音频特征输入到摇摆检测网络,得到摇摆检测网络中的至少一个中间层输出的第二中间特征;将待处理的音频信号的音频特征、全局特征和第二中间特征输入到重拍检测网络。
19.可选地,将待处理的音频信号的音频特征、全局特征和第二中间特征输入到重拍检测网络,包括:将待处理的音频信号的音频特征输入到重拍检测网络的输入层;针对重拍检测网络的至少一个中间层的每个中间层,将当前中间层输出的第四全局特征、摇摆检测网络中与当前中间层对应的中间层输出的第二中间特征和节拍检测网络中与当前中间层对应的中间层输出的第五全局特征进行拼接,得到第三拼接全局特征,并将第三拼接全局特征输入到当前中间层的下一中间层。
20.可选地,节拍重拍联合检测模型是基于上述节拍重拍联合检测模型的训练方法训练得到的。
21.根据本公开实施例的第三方面,提供一种节拍重拍联合检测模型的训练装置,节拍重拍联合检测模型包括节拍检测网络和重拍检测网络,训练装置包括:样本集获取单元,被配置为获取训练样本集,其中,训练样本集中包括多个样本音频信号和每个样本音频信号对应的节拍标注信息和重拍标注信息;节拍点概率获取单元,被配置为将样本音频信号的音频特征输入节拍检测网络,得到样本音频信号中每帧数据的节拍点预测概率,其中,节拍点预测概率表示样本音频信号中每帧数据是节拍点的预测概率;重拍点概率获取单元,被配置为将样本音频信号的音频特征输入到重拍检测网络,得到样本音频信号中每帧数据的重拍点预测概率,其中,重拍点预测概率表示样本音频信号中每帧数据是重拍点的预测
概率;目标损失函数确定单元,被配置为基于节拍点预测概率、重拍点预测概率、对应的节拍标注信息和重拍标注信息,计算目标损失函数的值;训练单元,被配置为根据目标损失函数的值,对节拍检测网络和重拍检测网络进行联合训练,得到训练完成的节拍重拍联合检测模型。
22.可选地,节拍点概率获取单元,还被配置为将样本音频信号的音频特征输入节拍检测网络,得到节拍检测网络的至少一个中间层输出的全局特征以及样本音频信号中每帧数据的节拍点预测概率;重拍点概率获取单元,还被配置为将样本音频信号的音频特征和全局特征输入到重拍检测网络,得到样本音频信号中每帧数据的重拍点预测概率。
23.可选地,重拍点概率获取单元,还被配置为将样本音频信号的音频特征输入到重拍检测网络的输入层;针对重拍检测网络的至少一个中间层的每个中间层,将当前中间层输出的第一全局特征和节拍检测网络中与当前中间层对应的中间层输出的第二全局特征进行拼接,得到第一拼接全局特征,并将第一拼接全局特征输入到当前中间层的下一中间层。
24.可选地,节拍重拍联合检测模型还包括预先训练好的风格分类网络,风格分类网络用于获取样本音频信号的音乐类型;其中,节拍点概率获取单元,还被配置为将样本音频信号的音频特征输入到风格分类网络,得到风格分类网络中的至少一个中间层输出的第一中间特征;将样本音频信号的音频特征和第一中间特征输入到节拍检测网络。
25.可选地,节拍点概率获取单元,还被配置为将样本音频信号的音频特征输入到节拍检测网络的输入层;针对节拍检测网络中的至少一个中间层的每个中间层,将当前中间层输出的第三全局特征和风格分类网络中与当前中间层对应的中间层输出的第一中间特征进行拼接,得到第二拼接全局特征,并将第二拼接全局特征输入到当前中间层的下一中间层。
26.可选地,节拍重拍联合检测模型还包括预先训练好的摇摆检测网络,摇摆检测网络用于获取样本音频信号的重拍和音量关系;其中,重拍点概率获取单元,还被配置为将样本音频信号的音频特征输入到摇摆检测网络,得到摇摆检测网络中的至少一个中间层输出的第二中间特征;将样本音频信号的音频特征、全局特征和第二中间特征输入到重拍检测网络。
27.可选地,重拍点概率获取单元,还被配置为将样本音频信号的音频特征输入到重拍检测网络的输入层;针对重拍检测网络的至少一个中间层的每个中间层,将当前中间层输出的第四全局特征、摇摆检测网络中与当前中间层对应的中间层输出的第二中间特征和节拍检测网络中与当前中间层对应的中间层输出的第五全局特征进行拼接,得到第三拼接全局特征,并将第三拼接全局特征输入到当前中间层的下一中间层。
28.可选地,目标损失函数确定单元,还被配置为基于节拍点预测概率和对应的节拍标注信息,计算第一目标损失函数的值;基于重拍点预测概率和对应的重拍标注信息,计算第二目标损失函数的值;将第一目标损失函数的值和第二目标损失函数的值相加,得到目标损失函数的值。
29.根据本公开实施例的第四方面,提供一种节拍重拍联合检测装置,其特征在于,节拍重拍联合检测装置利用预先训练的节拍重拍联合检测模型执行节拍重拍联合检测,节拍重拍联合检测模型包括节拍检测网络和重拍检测网络,节拍重拍联合检测装置包括:音频
信号获取单元,被配置为获取待处理的音频信号;节拍点概率获取单元,被配置为将待处理的音频信号的音频特征输入节拍检测网络,得到待处理的音频信号中每帧数据的节拍点概率,其中,节拍点概率表示待处理的音频信号中每帧数据是节拍点的概率;重拍点概率获取单元,被配置为将待处理的音频信号的音频特征输入到重拍检测网络,得到待处理的音频信号中每帧数据的重拍点概率,其中,重拍点概率表示待处理的音频信号中每帧数据是重拍点的概率;确定单元,被配置为根据待处理的音频信号中每帧数据是节拍点的概率,以及待处理的音频信号中每帧数据是重拍点的概率,确定待处理的音频信号的节拍重拍联合检测结果。
30.可选地,节拍点概率获取单元,被配置为将待处理的音频信号的音频特征输入节拍检测网络,得到节拍检测网络的至少一个中间层输出的全局特征以及待处理的音频信号中每帧数据的节拍点概率;重拍点概率获取单元,还被配置为将待处理的音频信号的音频特征和全局特征输入到重拍检测网络,得到待处理的音频信号中每帧数据的重拍点的概率。
31.可选地,重拍点概率获取单元,还被配置为将待处理的音频信号的音频特征输入到重拍检测网络的输入层;针对重拍检测网络的至少一个中间层的每个中间层,将当前中间层输出的第一全局特征和节拍检测网络中与当前中间层对应的中间层输出的第二全局特征进行拼接,得到第一拼接全局特征,并将第一拼接全局特征输入到当前中间层的下一中间层。
32.可选地,节拍重拍联合检测模型还包括预先训练好的风格分类网络,风格分类网络用于获取音频信号的音乐类型;其中,节拍点概率获取单元,还被配置为将待处理的音频信号的音频特征输入到风格分类网络,得到风格分类网络中的至少一个中间层输出的第一中间特征;将待处理的音频信号的音频特征和第一中间特征输入到节拍检测网络。
33.可选地,节拍点概率获取单元,还被配置为将待处理的音频信号的音频特征输入到节拍检测网络的输入层;针对节拍检测网络中的至少一个中间层的每个中间层,将当前中间层输出的第三全局特征和风格分类网络中与当前中间层对应的中间层输出的第一中间特征进行拼接,得到第二拼接全局特征,并将第二拼接全局特征输入到当前中间层的下一中间层。
34.可选地,节拍重拍联合检测模型还包括预先训练好的摇摆检测网络,摇摆检测网络用于获取音频信号的重拍和音量关系;其中,重拍点概率获取单元,还被配置为将待处理的音频信号的音频特征输入到摇摆检测网络,得到摇摆检测网络中的至少一个中间层输出的第二中间特征;将待处理的音频信号的音频特征、全局特征和第二中间特征输入到重拍检测网络。
35.可选地,重拍点概率获取单元,还被配置为将待处理的音频信号的音频特征输入到重拍检测网络的输入层;针对重拍检测网络的至少一个中间层的每个中间层,将当前中间层输出的第四全局特征、摇摆检测网络中与当前中间层对应的中间层输出的第二中间特征和节拍检测网络中与当前中间层对应的中间层输出的第五全局特征进行拼接,得到第三拼接全局特征,并将第三拼接全局特征输入到当前中间层的下一中间层。
36.可选地,节拍重拍联合检测模型是基于上述节拍重拍联合检测模型的训练方法训练得到的。
37.根据本公开实施例的第五方面,提供了一种电子设备,包括:处理器;用于存储处理器可执行指令的存储器;其中,处理器被配置为执行指令,以实现根据本公开的节拍重拍联合检测模型的训练方法或节拍重拍联合检测方法。
38.根据本公开实施例的第六方面,提供了一种计算机可读存储介质,当计算机可读存储介质中的指令被至少一个处理器运行时,促使至少一个处理器执行如上根据本公开的节拍重拍联合检测模型的训练方法或节拍重拍联合检测方法。
39.根据本公开实施例的第七方面,提供了一种计算机程序产品,包括计算机指令,计算机指令被处理器执行时实现根据本公开的节拍重拍联合检测模型的训练方法或节拍重拍联合检测方法。
40.本公开的实施例提供的技术方案至少带来以下有益效果:
41.根据本公开的节拍重拍联合检测模型的训练及节拍重拍联合检测方法,在训练的过程中,通过包含节拍信息和重拍信息的损失函数来调整节拍检测网络和重拍检测网络,也即将节拍信息加入重拍检测网络的训练过程,可减少重拍检测的失误率,提高了重拍检测的正确率,而且也将重拍信息引入了节拍检测训练过程,也进一步的提高了节拍检测的正确率。
42.应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
43.此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理,并不构成对本公开的不当限定。
44.图1是示出根据本公开的示例性实施例的节拍重拍联合检测模型的训练方法的实施场景示意图;
45.图2是根据一示例性实施例示出的一种节拍重拍联合检测模型的训练方法的流程图;
46.图3是根据一示例性实施例示出的一种节拍重拍联合检测模型的训练方法的逻辑图;
47.图4是根据一示例性实施例示出的一种可选的节拍重拍联合检测模型的训练方法示意图;
48.图5是根据一示例性实施例示出的一种检测结果示意图;
49.图6是根据一示例性实施例示出的另一种可选的节拍重拍联合检测模型的训练方法示意图;
50.图7是根据一示例性实施例示出的一种节拍重拍联合检测方法的流程图;
51.图8是根据一示例性实施例示出的一种节拍重拍联合检测模型的训练装置的框图;
52.图9是根据一示例性实施例示出的一种节拍重拍联合检测装置的框图;
53.图10是根据本公开实施例的一种电子设备1000的框图。
具体实施方式
54.为了使本领域普通人员更好地理解本公开的技术方案,下面将结合附图,对本公开实施例中的技术方案进行清楚、完整地描述。
55.需要说明的是,本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
56.在此需要说明的是,在本公开中出现的“若干项之中的至少一项”均表示包含“该若干项中的任意一项”、“该若干项中的任意多项的组合”、“该若干项的全体”这三类并列的情况。例如“包括a和b之中的至少一个”即包括如下三种并列的情况:(1)包括a;(2)包括b;(3)包括a和b。又例如“执行步骤一和步骤二之中的至少一个”,即表示如下三种并列的情况:(1)执行步骤一;(2)执行步骤二;(3)执行步骤一和步骤二。
57.针对上述问题,本公开提供了一种节拍重拍联合检测模型的训练及节拍重拍联合检测方法,能够保证节拍检测的正确率的同时提高了重拍检测的正确率,下面以检测一段音乐的节拍和重拍为例进行说明。
58.图1是示出根据本公开的示例性实施例的节拍重拍联合检测模型的训练方法的实施场景示意图,如图1所述,该实施场景包括服务器100、用户终端110和用户终端120,其中,用户终端不限于2个,包括并不限于手机、个人计算机等设备,用户终端可以安装获取音乐的应用程序,服务器可以是一个服务器,也可以是若干个服务器组成服务器集群,还可以是云计算平台或虚拟化中心。
59.服务器100接收用户终端110、120发送的对节拍重拍联合检测模型进行训练的请求之后,统计从用户终端110、120历史上接收到的音乐片段并对统计的音乐片段中的节拍和重拍分别进行标注,并将标注后的音乐片段合并在一起作为训练样本集,其中,训练样本集包括多个音乐片段和每个音乐片段对应的节拍标注信息和重拍标注信息,服务器100在获取到训练样本集后,将其中的音乐片段的梅尔谱特征输入节拍检测网络,得到音乐片段中每帧数据的节拍点预测概率和节拍检测网络的至少一个中间层输出的全局特征;再将音频信号的梅尔谱特征和全局特征输入到重拍检测网络,得到音频信号中每帧数据的重拍点预测概率,然后,基于节拍点预测概率、重拍点预测概率、对应的节拍标注信息和重拍标注信息,计算目标损失函数的值,再通过调整目标损失函数的值调整节拍检测网络和重拍检测网络的参数,对节拍重拍联合检测模型进行训练,得到最优的节拍重拍联合检测模型,通过训练好的迁移学习模型可以对输入的待处理的音乐片段进行准确的处理,即得到该待处理音乐的节拍和重拍。
60.下面,将参照图2至图9详细描述根据本公开的示例性实施例的节拍重拍联合检测模型的训练及节拍重拍联合检测方法。
61.图2是根据一示例性实施例示出的一种节拍重拍联合检测模型的训练方法的流程图,如图2所示,节拍重拍联合检测模型包括节拍检测网络和重拍检测网络节,该训练方法包括以下步骤:
62.在步骤s201中,获取训练样本集,其中,训练样本集中包括多个样本音频信号和每个样本音频信号对应的节拍标注信息和重拍标注信息。上述每个样本音频信号对应的节拍标注信息和重拍标注信息可以是人工标注的,也可以是通过其他标注方式,本公开对此并不公开。
63.在步骤s202中,将样本音频信号的音频特征输入节拍检测网络,得到样本音频信号中每帧数据的节拍点预测概率,其中,节拍点预测概率表示音频信号中每帧数据是节拍点的预测概率。例如,上述获取音频信号的梅尔谱特征可以通过如下方式获取:
64.1)将原始音频信号通过短时傅里叶变换转到时频域。若长度为t的原始音频信号x在时域上为x(t),其中t代表时间,0《t≤t,则经过短时傅里叶变换后,x(t)在时频域可表示为:
65.x(n,k)=stft(x(t))
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)
66.其中n为帧序列,0《n≤ns,(ns为总帧数);k为中心频率序列,0《k≤k;(k为总频点数)。
67.2)计算梅尔谱特征(即上述音频特征)可通过如下公式实现:
68.m(n,k)=mel(x(n,k

))
ꢀꢀꢀꢀꢀꢀꢀꢀ
(2)
69.其中k

为梅尔谱映射后的频率序列。
70.在得到梅尔谱特征后,可以将得到的梅尔谱特征输入节拍检测网络中,得到每一帧数据对应是否为节拍点的概率,具体可以表示如下:
71.p(n)=model(m(n,k))
ꢀꢀꢀꢀꢀꢀꢀꢀ
(3)
72.根据本公开的示例性实施例,节拍重拍联合检测模型还包括预先训练好的风格分类网络,风格分类网络用于获取样本音频信号的音乐类型;其中,将样本音频信号的音频特征输入节拍检测网络,可以包括:将样本音频信号的音频特征输入到风格分类网络,得到风格分类网络中的至少一个中间层输出的第一中间特征;将样本音频信号的音频特征和第一中间特征输入到节拍检测网络。通过本实施例,将风格分类信息作为特征输入到节拍检测网络,提升了网络的学习能力和识别能力,以及模型的检测准确性。例如,将音频信号先通过一个音频风格分类网络,常见的音乐类型有:rock,pop,classical,blues,reggae,electric,metal,jazz等,不同的风格会对应着不同的鼓点特征,形成一种该风格特定的节奏感,将风格信息发给节拍检测网络会在一定程度上提升节拍的检测准确率。上述第一中间特征可以是如下图6所示的风格分类网络中卷积神经网络(convolutional neural networks,缩写为cnn)的输出特征。
73.根据本公开的示例性实施例,将样本音频信号的音频特征和第一中间特征输入到节拍检测网络,可以包括:将样本音频信号的音频特征输入到节拍检测网络的输入层;针对节拍检测网络中的至少一个中间层的每个中间层,将当前中间层输出的第三全局特征和风格分类网络中与当前中间层对应的中间层输出的第一中间特征进行拼接,得到第二拼接全局特征,并将第二拼接全局特征输入到当前中间层的下一中间层。通过本实施例,将风格分类网络的中间层输出作为节拍检测网络作为中间层的输入,引入到节拍检测中,可以得到正确率较高的节拍检测检测结果。上述第三全局特征可以是如下图6所示的节拍检测网络中双向长短期记忆网络(bilateral long short-term memory,缩写为blstm)的输出特征。上述第二拼接全局特征可以是如下图6所示的节拍检测网络中拼接网络concat的输出特
征。
74.返回图2,在步骤s203中,将样本音频信号的音频特征输入到重拍检测网络,得到音频信号中每帧数据的重拍点预测概率,其中,重拍点预测概率表示音频信号中每帧数据是重拍点的预测率。
75.根据本公开的示例性实施例,将样本音频信号的音频特征输入节拍检测网络,得到音频信号中每帧数据的节拍点预测概率,包括:将样本音频信号的音频特征输入节拍检测网络,得到节拍检测网络的至少一个中间层输出的全局特征以及样本音频信号中每帧数据的节拍点预测概率;其中,将样本音频信号的音频特征输入到重拍检测网络,可以包括:将样本音频信号的音频特征和全局特征输入到所述重拍检测网络,得到样本音频信号中每帧数据的重拍点预测概率。通过本实施例,节拍检测网络的中间层输出的信息引入重拍检测网络,也即将节拍信息加入了重拍检测网络中,可减少重拍检测的失误率,进一步的提高了重拍检测正确率。
76.根据本公开的示例性实施例,将样本音频信号的音频特征和全局特征输入到重拍检测网络,可以包括:将样本音频信号的音频特征输入到重拍检测网络的输入层;针对重拍检测网络的至少一个中间层的每个中间层,将当前中间层输出的第一全局特征和节拍检测网络中与当前中间层对应的中间层输出的第二全局特征进行拼接,得到第一拼接全局特征,并将第一拼接全局特征输入到当前中间层的下一中间层。通过本实施例,将节拍检测网络的中间层输出作为重拍检测网络作为中间层的输入,引入到重拍检测中,可以得到正确率较高的重拍检测结果。
77.例如,在一种实现中,神经网络可以由一层卷积神经网络(convolutional neural networks,缩写为cnn)还有两层双向长短期记忆网络(bilateral long short-term memory,缩写为blstm)组成,节拍检测网络和重拍检测网络可用相同的网络,将节拍检测网络每一层blsm的输出结果与重拍检测网络对应blstm层的输出进行串联,传给下一层网络,这样重拍检测就包含了节拍信息,可以进一步提高模型的准确率。需要说明的是,上述第一全局特征可以是如下图4所示重拍检测网络中blstm层输出的特征,上述第二全局特征可以是如下图4所示节拍检测网络中blstm层输出的特征,上述第一拼接全局特征可以是如下图4所示重拍检测网络中拼接网络层concat输出的特征。
78.根据本公开的示例性实施例,节拍重拍联合检测模型还包括预先训练好的摇摆检测网络,摇摆检测网络用于获取样本音频信号的重拍和音量关系;其中,将样本音频信号的音频特征和全局特征输入到重拍检测网络可以包括:将样本音频信号的音频特征输入到摇摆检测网络,得到摇摆检测网络中的至少一个中间层输出的第二中间特征;将样本音频信号的音频特征、全局特征和第二中间特征输入到重拍检测网络。通过本实施例,将摇摆分类信息作为特征输入到节拍检测网络,提升了网络的学习能力和识别能力,减少了混淆,提升了模型的检测准确性。例如,除了上述风格分类网络以外,还可以让音乐再通过一个摇摆(swing)检测网络,swing的音乐通常会给人听感上的音量强弱感与实际强弱拍是反着的,也就是说重拍通常音量都会比较弱,而非重拍反而在音量上要高于重拍,因此会形成一种摇摆的感觉,此网络有助于重拍检测网络识别重拍,减少混淆。上述第二中间特征可以是如下图6所示的摇摆检测网络中卷积神经网络(convolutional neural networks,缩写为cnn)的输出特征。
79.根据本公开的示例性实施例,将样本音频信号的音频特征、全局特征和第二中间特征输入到重拍检测网络,可以包括:将样本音频信号的音频特征输入到重拍检测网络的输入层;针对重拍检测网络的至少一个中间层的每个中间层,将当前中间层输出的第四全局特征、摇摆检测网络中与当前中间层对应的中间层输出的第二中间特征和节拍检测网络中与当前中间层对应的中间层输出的第五全局特征进行拼接,得到第三拼接全局特征,并将第三拼接全局特征输入到当前中间层的下一中间层。通过本实施例,将摇摆检测网络的中间层输出作为重拍检测网络作为中间层的输入,引入到重拍检测中,可以得到正确率较高的重拍检测检测结果。上述第四全局特征可以是如下图6所示的重拍检测网络中blstm的输出特征,上述第五全局特征可以是如图6所示的节拍检测网络中blstm的输出特征,上述第三拼接全局特征可以是如下图6所示的重拍检测网络中拼接网络concat的输出特征。
80.在步骤s204中,基于节拍点预测概率、重拍点预测概率、对应的节拍标注信息和重拍标注信息,计算目标损失函数的值。
81.根据本公开的示例性实施例,基于节拍点预测概率、重拍点预测概率、对应的节拍标注信息和重拍标注信息,确定目标损失函数,可以包括:基于节拍点预测概率和对应的节拍标注信息,计算第一目标损失函数的值;基于重拍点预测概率和对应的重拍标注信息,计算第二目标损失函数的值;将第一目标损失函数的值和第二目标损失函数的值相加,得到目标损失函数的值。通过本实施例,可以将节拍检测和重拍检测损失函数结合在一起来共同训练模型,以得到更好的训练结果。
82.例如,可以通过两个网络分别得到的节拍点概率p1(n),重拍点概率p2(n)和节拍标注信息b1(n)和重拍标注的信息b2(n),将两个相加计算最终的目标损失函数l(n):
83.l1(n)=loss(p1(n),b1(n))
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(4)
84.l2(n)=loss(p2(n),b2(n))
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(5)
85.l(n)=l1(n)+l2(n)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(6)
86.其中,loss损失函数可以为加权交叉熵损失(weighted cross entropy)函数。
87.在步骤s205中,根据目标损失函数的值,对节拍检测网络和重拍检测网络进行联合训练,得到训练完成的节拍重拍联合检测模型。例如,可以通过随机梯度下降法来减小损失函数实现更新模型对应的参数,利用adam优化来加速模型训练迭代更新。
88.为了方便理解上述实施例,下面进行系统的论述。一般情况下,不同于节拍检测,对于重拍的感知更多是依赖于和弦和音乐织体的变化,但是由于重拍是包含在节拍里面,与节拍共同决定了音乐的音乐律动,因此单独预测重拍会存在一些问题,除此之外,音乐风格的不一致也会导致不同音乐节奏以及重拍的特征有较大的差别,因此如果没有足够多的数据支撑,会造成网络无法收敛等问题。本公开针对上述问题,提出了一种节拍重拍联合检测模型的训练方法,图3是根据一示例性实施例示出的一种节拍重拍联合检测模型的训练方法的逻辑图,如图3所示,首先将待训练的音频信号分别输入节拍检测网络和重拍检测网络,得到每一帧数据分别为非节拍、节拍和重拍的概率,将两者的目标损失函数相加,即计算总的目标损失函数与节拍标注信息、重拍标注信息之间的偏差,从而通过调整两个网络的参数优化目标损失函数,最后同时得到每一帧节拍和重拍的概率,最后为了得到全局信息可以利用后处理如深度置信网络(deep belief network,缩写为dbn)/隐马尔科夫模型(hidden markov model,缩写为hmm)/viterbi等方式对输出的概率做解码得到最后的节拍
beat和重拍downbeat时间序列。
89.上述训练具体的过程可以结合图4、图5和图6进行理解。
90.如图4所示,节拍检测网络包括一层卷积神经网络(convolutional neural networks,缩写为cnn)、两层双向长短期记忆网络(bilateral long short-term memory,缩写为blstm)和一层全连接网络dense,重拍检测网络包括一层cnn、一层blstm、一层拼接网络concat、一层blstm、一层concat和一层dense。首先从原始音频信号中提取用于节拍和重拍检测的特征,即将原始音频信号进行短时傅里叶变换(short-time fourier transform,缩写为stft),从时域转换至时频域,转为梅尔谱特征,具体的过程在上面已经论述过,此处不再展开论述。其次,得到梅尔谱特征后,将梅尔谱特征作为节拍检测网络和重拍检测网络的输入特征,来预测每一帧数据是否为节拍以及重拍的概率,在训练过程中可以将每一层blstm的节拍检测的信息传给对应的重拍检测层,通过模型输出的概率和节拍标注信息、重拍标注信息计算目标损失函数,如根据各标注信息计算每一帧特征是否为节拍帧或重拍帧,并将此信息作为训练目标target。通过训练优化模型的参数来降低损失函数并优化模型,最后得到每一帧的节拍检测和重拍检测的预测结果。
91.通过训练节拍检测网络和重拍检测网络得到每一帧的节拍预测和重拍预测的结果。音乐常见的拍号类型有2/4拍,3/4拍以及4/4拍,如图5所示,对应的重拍帧、节拍中的弱拍帧以及非节拍帧。
92.在另一种实现中,为了解决风格不同导致的检测不准的问题,可以在模型的训练中加入风格标签和摇摆标签进行联合训练,模型结构如图6所示,首先从原始音频信号中提取用于节拍和重拍检测的特征,即将原始音频信号进行stft,从时域转换至时频域,转为梅尔谱特征,具体的过程在上面已经论述过,此处不再展开论述。其次,得到梅尔谱特征后,将梅尔谱特征作为节拍检测网络和重拍检测网络的输入特征,来预测每一帧数据是否为节拍以及重拍的概率,同时,将梅尔谱特征作为音频风格分类网络和音频swingness分类网络的输入特征,来预测每一帧数据是否为音频风格以及音频swingness。在训练过程中可以将音频风格分类网络每一层cnn的输出信息依次输入到节拍检测网络中对应层,与相应的blstm输出进行拼接,以及可以将音频swingness分类网络每一层cnn的输出信息和每一层blstm的节拍检测的信息传给对应的重拍检测层,通过模型输出的概率和节拍标注信息、重拍标注信息计算目标损失函数,如根据各标注信息计算每一帧特征是否为节拍帧或重拍帧,并将此信息作为训练目标target。通过训练优化模型的参数来降低损失函数并优化模型,最后得到每一帧的节拍检测和重拍检测的预测结果。
93.图7是根据一示例性实施例示出的一种节拍重拍联合检测方法的流程图,如图7所示,节拍重拍联合检测方法利用预先训练的节拍重拍联合检测模型执行节拍重拍联合检测,节拍重拍联合检测模型包括节拍检测网络和重拍检测网络,节拍重拍联合检测方法包括:
94.在步骤s701中,获取待处理的音频信号。
95.在步骤s702中,将待处理的音频信号的音频特征输入节拍检测网络,得到待处理的音频信号中每帧数据的节拍点概率,其中,节拍点概率表示待处理的音频信号中每帧数据是节拍点的概率。音频特征的获取过程在上面已经详细介绍,此处不再展开论述。
96.根据本公开的示例性实施例,节拍重拍联合检测模型还包括预先训练好的风格分
类网络,风格分类网络用于获取音频信号的音乐类型;其中,将待处理的音频信号的音频特征输入节拍检测网络,包括:将待处理的音频信号的音频特征输入到风格分类网络,得到风格分类网络中的至少一个中间层输出的第一中间特征;将待处理的音频信号的音频特征和第一中间特征输入到节拍检测网络。通过本实施例,将风格分类信息作为特征输入到节拍检测网络,提升了网络的学习能力和识别能力,以及模型的检测准确性。例如,将音频信号先通过一个音频风格分类网络,常见的音乐类型有:rock,pop,classical,blues,reggae,electric,metal,jazz等,不同的风格会对应着不同的鼓点特征,形成一种该风格特定的节奏感,将风格信息发给节拍检测网络会在一定程度上提升节拍的检测准确率。上述第一中间特征可以是如图6所示的风格分类网络中卷积神经网络(convolutional neural networks,缩写为cnn)的输出特征。
97.根据本公开的示例性实施例,将待处理的音频信号的音频特征和第一中间特征输入到节拍检测网络,包括:将待处理的音频信号的音频特征输入到节拍检测网络的输入层;针对节拍检测网络中的至少一个中间层的每个中间层,将当前中间层输出的第三全局特征和风格分类网络中与当前中间层对应的中间层输出的第一中间特征进行拼接,得到第二拼接全局特征,并将第二拼接全局特征输入到当前中间层的下一中间层。通过本实施例,将风格分类网络的中间层输出作为节拍检测网络作为中间层的输入,引入到节拍检测中,可以得到正确率较高的节拍检测检测结果。上述第三全局特征可以是如图6所示的节拍检测网络中双向长短期记忆网络(bilateral long short-term memory,缩写为blstm)的输出特征。上述第二拼接全局特征可以是如图6所示的节拍检测网络中拼接网络concat的输出特征。
98.在步骤s703中,将待处理的音频信号的音频特征输入到重拍检测网络,得到待处理的音频信号中每帧数据的重拍点概率,其中,重拍点概率表示待处理的音频信号中每帧数据是重拍点的概率。
99.根据本公开的示例性实施例,将待处理的音频信号的音频特征输入节拍检测网络,得到待处理的音频信号中每帧数据的节拍点概率,包括:将待处理的音频信号的音频特征输入节拍检测网络,得到节拍检测网络的至少一个中间层输出的全局特征以及待处理的音频信号中每帧数据的节拍点概率;其中,将待处理的音频信号的音频特征输入到重拍检测网络,得到待处理的音频信号中每帧数据的重拍点预测概率,包括:将待处理的音频信号的音频特征和全局特征输入到重拍检测网络,得到待处理的音频信号中每帧数据的重拍点预测概率。通过本实施例,节拍检测网络的中间层输出的信息引入重拍检测网络,也即将节拍信息加入了重拍检测网络中,可减少重拍检测的失误率,进一步的提高了重拍检测正确率。
100.根据本公开的示例性实施例,将待处理的音频信号的音频特征和全局特征输入到重拍检测网络,包括:将待处理的音频信号的音频特征输入到重拍检测网络的输入层;针对重拍检测网络的至少一个中间层的每个中间层,将当前中间层输出的第一全局特征和节拍检测网络中与当前中间层对应的中间层输出的第二全局特征进行拼接,得到第一拼接全局特征,并将第一拼接全局特征输入到当前中间层的下一中间层。通过本实施例,将节拍检测网络的中间层输出作为重拍检测网络作为中间层的输入,引入到重拍检测中,可以得到正确率较高的重拍检测结果。
101.根据本公开的示例性实施例,节拍重拍联合检测模型还包括预先训练好的摇摆检测网络,摇摆检测网络用于获取音频信号的重拍和音量关系;其中,将待处理的音频信号的音频特征和全局特征输入到重拍检测网络,包括:将待处理的音频信号的音频特征输入到摇摆检测网络,得到摇摆检测网络中的至少一个中间层输出的第二中间特征;将待处理的音频信号的音频特征、全局特征和第二中间特征输入到重拍检测网络。通过本实施例,将摇摆分类信息作为特征输入到节拍检测网络,提升了网络的学习能力和识别能力,减少了混淆,提升了模型的检测准确性。例如,除了上述风格分类网络以外,还可以让音乐再通过一个摇摆(swing)检测网络,swing的音乐通常会给人听感上的音量强弱感与实际强弱拍是反着的,也就是说重拍通常音量都会比较弱,而非重拍反而在音量上要高于重拍,因此会形成一种摇摆的感觉,此网络有助于重拍检测网络识别重拍,减少混淆。上述第二中间特征可以是如图6所示的摇摆检测网络中卷积神经网络(convolutional neural networks,缩写为cnn)的输出特征。
102.根据本公开的示例性实施例,将待处理的音频信号的音频特征、全局特征和第二中间特征输入到重拍检测网络,包括:将待处理的音频信号的音频特征输入到重拍检测网络的输入层;针对重拍检测网络的至少一个中间层的每个中间层,将当前中间层输出的第四全局特征、摇摆检测网络中与当前中间层对应的中间层输出的第二中间特征和节拍检测网络中与当前中间层对应的中间层输出的第五全局特征进行拼接,得到第三拼接全局特征,并将第三拼接全局特征输入到当前中间层的下一中间层。通过本实施例,将摇摆检测网络的中间层输出作为重拍检测网络作为中间层的输入,引入到重拍检测中,可以得到正确率较高的重拍检测检测结果。上述第四全局特征可以是如图6所示的重拍检测网络中blstm的输出特征,上述第五全局特征可以是如图6所示的节拍检测网络中blstm的输出特征,上述第三拼接全局特征可以是如图6所示的重拍检测网络中拼接网络concat的输出特征。
103.例如,为了解决风格不同导致的检测不准的问题,可以在模型的训练中加入风格标签和摇摆标签,模型结构如图6所示,首先从原始音频信号中提取用于节拍和重拍检测的特征,即将原始音频信号进行stft,从时域转换至时频域,转为梅尔谱特征,具体的过程在上面已经论述过,此处不再展开论述。其次,得到梅尔谱特征后,将梅尔谱特征作为节拍检测网络和重拍检测网络的输入特征,来预测每一帧数据是否为节拍以及重拍的概率,同时,将梅尔谱特征作为音频风格分类网络和音频swingness分类网络的输入特征,来预测每一帧数据是否为音频风格以及音频swingness。在实际检测过程中可以将音频风格分类网络每一层cnn的输出信息依次输入到节拍检测网络中对应层,与相应的blstm输出进行拼接,以及可以将音频swingness分类网络每一层cnn的输出信息和每一层blstm的节拍检测的信息传给对应的重拍检测层,模型最后输出的即每一帧的节拍检测和重拍检测的预测结果。
104.根据本公开的示例性实施例,节拍重拍联合检测模型是基于上述的节拍重拍联合检测模型的训练方法训练得到的。根据本实施例,由于上述节拍重拍联合检测模型的训练方法,考虑了结合节拍信息、重拍信息、风格风雷网络输出信息和摇摆检测网络输出信息,使得训练出来的节拍重拍联合检测模型具有较高的准确度,故采用该模型可以准确的检测出待处理的音频信号的节拍点概率和重拍点概率。
105.在步骤s704中,根据待处理的音频信号中每帧数据是节拍点的概率,以及待处理的音频信号中每帧数据是重拍点的概率,确定待处理的音频信号的节拍重拍联合检测结
果。
106.图8是根据一示例性实施例示出的一种节拍重拍联合检测模型的训练装置的框图。参照图8,节拍重拍联合检测模型包括节拍检测网络和重拍检测网络,训练装置包括:样本集获取单元80、节拍点概率获取单元82、重拍点概率获取单元84、目标损失函数确定单元86和训练单元88。
107.样本集获取单元80,被配置为获取训练样本集,其中,训练样本集中包括多个样本音频信号和每个样本音频信号对应的节拍标注信息和重拍标注信息;节拍点概率获取单元82,被配置为将样本音频信号的音频特征输入节拍检测网络,得到样本音频信号中每帧数据的节拍点预测概率,其中,节拍点预测概率表示样本音频信号中每帧数据是节拍点的预测概率;重拍点概率获取单元84,被配置为将样本音频信号的音频特征输入到重拍检测网络,得到样本音频信号中每帧数据的重拍点预测概率,其中,重拍点预测概率表示样本音频信号中每帧数据是重拍点的预测概率;目标损失函数确定单元86,被配置为基于节拍点预测概率、重拍点预测概率、对应的节拍标注信息和重拍标注信息,计算目标损失函数的值;被配置为根据目标损失函数的值,对节拍检测网络和重拍检测网络进行联合训练,得到训练完成的节拍重拍联合检测模型。
108.根据本公开的示例性实施例,节拍点概率获取单元82,还被配置为将样本音频信号的音频特征输入节拍检测网络,得到节拍检测网络的至少一个中间层输出的全局特征以及样本音频信号中每帧数据的节拍点预测概率;重拍点概率获取单元84,还被配置为将样本音频信号的音频特征和全局特征输入到重拍检测网络,得到样本音频信号中每帧数据的重拍点预测概率。
109.根据本公开的示例性实施例,重拍点概率获取单元84,还被配置为将样本音频信号的音频特征输入到重拍检测网络的输入层;针对重拍检测网络的至少一个中间层的每个中间层,将当前中间层输出的第一全局特征和节拍检测网络中与当前中间层对应的中间层输出的第二全局特征进行拼接,得到第一拼接全局特征,并将第一拼接全局特征输入到当前中间层的下一中间层。
110.根据本公开的示例性实施例,节拍重拍联合检测模型还包括预先训练好的风格分类网络,风格分类网络用于获取样本音频信号的音乐类型;其中,节拍点概率获取单元82,还被配置为将样本音频信号的音频特征输入到风格分类网络,得到风格分类网络中的至少一个中间层输出的第一中间特征;将样本音频信号的音频特征和第一中间特征输入到节拍检测网络。
111.根据本公开的示例性实施例,节拍点概率获取单元82,还被配置为将样本音频信号的音频特征输入到节拍检测网络的输入层;针对节拍检测网络中的至少一个中间层的每个中间层,将当前中间层输出的第三全局特征和风格分类网络中与当前中间层对应的中间层输出的第一中间特征进行拼接,得到第二拼接全局特征,并将第二拼接全局特征输入到当前中间层的下一中间层。
112.根据本公开的示例性实施例,节拍重拍联合检测模型还包括预先训练好的摇摆检测网络;其中,重拍点概率获取单元84,还被配置为将样本音频信号的音频特征输入到摇摆检测网络,摇摆检测网络用于获取样本音频信号的重拍和音量关系,得到摇摆检测网络中的至少一个中间层输出的第二中间特征;将样本音频信号的音频特征、全局特征和第二中
间特征输入到重拍检测网络。
113.根据本公开的示例性实施例,重拍点概率获取单元84,还被配置为将样本音频信号的音频特征输入到重拍检测网络的输入层;针对重拍检测网络的至少一个中间层的每个中间层,将当前中间层输出的第四全局特征、摇摆检测网络中与当前中间层对应的中间层输出的第二中间特征和节拍检测网络中与当前中间层对应的中间层输出的第四全局特征进行拼接,得到第三拼接全局特征,并将第三拼接全局特征输入到当前中间层的下一中间层。
114.根据本公开的示例性实施例,目标损失函数确定单元86,还被配置为基于节拍点预测概率和对应的节拍标注信息,计算第一目标损失函数的值;基于重拍点预测概率和对应的重拍标注信息,计算第二目标损失函数的值;将第一目标损失函数的值和第二目标损失函数的值相加,得到目标损失函数的值。
115.图9是根据一示例性实施例示出的一种节拍重拍联合检测装置的框图。参照图9,节拍重拍联合检测装置利用预先训练的节拍重拍联合检测模型执行节拍重拍联合检测,节拍重拍联合检测模型包括节拍检测网络和重拍检测网络,节拍重拍联合检测装置包括:音频信号获取单元90、节拍点概率获取单元92、重拍点概率获取单元94和确定单元96。
116.音频信号获取单元90,被配置为获取待处理的音频信号;节拍点概率获取单元92,被配置为将待处理的音频信号的音频特征输入节拍检测网络,得到待处理的音频信号中每帧数据的节拍点概率,其中,节拍点概率表示待处理的音频信号中每帧数据是节拍点的概率;重拍点概率获取单元94,被配置为将待处理的音频信号的音频特征输入到重拍检测网络,得到待处理的音频信号中每帧数据的重拍点概率,其中,重拍点概率表示待处理的音频信号中每帧数据是重拍点的概率;确定单元96,被配置为根据待处理的音频信号中每帧数据是节拍点的概率,以及待处理的音频信号中每帧数据是重拍点的概率,确定待处理的音频信号的节拍重拍联合检测结果。
117.根据本公开的示例性实施例,节拍点概率获取单元92,被配置为将待处理的音频信号的音频特征输入节拍检测网络,得到节拍检测网络的至少一个中间层输出的全局特征以及待处理的音频信号中每帧数据的节拍点概率;重拍点概率获取单元94,还被配置为将待处理的音频信号的音频特征和全局特征输入到重拍检测网络,得到待处理的音频信号中每帧数据的重拍点预测概率。
118.根据本公开的示例性实施例,重拍点概率获取单元94,还被配置为将待处理的音频信号的音频特征输入到重拍检测网络的输入层;针对重拍检测网络的至少一个中间层的每个中间层,将当前中间层输出的第一全局特征和节拍检测网络中与当前中间层对应的中间层输出的第二全局特征进行拼接,得到第一拼接全局特征,并将第一拼接全局特征输入到当前中间层的下一中间层。
119.根据本公开的示例性实施例,节拍重拍联合检测模型还包括预先训练好的风格分类网络,风格分类网络用于获取音频信号的音乐类型;其中,节拍点概率获取单元92,还被配置为将待处理的音频信号的音频特征输入到风格分类网络,得到风格分类网络中的至少一个中间层输出的第一中间特征;将待处理的音频信号的音频特征和第一中间特征输入到节拍检测网络。
120.根据本公开的示例性实施例,节拍点概率获取单元92,还被配置为将待处理的音
频信号的音频特征输入到节拍检测网络的输入层;针对节拍检测网络中的至少一个中间层的每个中间层,将当前中间层输出的第三全局特征和风格分类网络中与当前中间层对应的中间层输出的第一中间特征进行拼接,得到第二拼接全局特征,并将第二拼接全局特征输入到当前中间层的下一中间层。
121.根据本公开的示例性实施例,节拍重拍联合检测模型还包括预先训练好的摇摆检测网络,摇摆检测网络用于获取音频信号的重拍和音量关系;其中,重拍点概率获取单元94,还被配置为将待处理的音频信号的音频特征输入到摇摆检测网络,得到摇摆检测网络中的至少一个中间层输出的第二中间特征;将待处理的音频信号的音频特征、全局特征和第二中间特征输入到重拍检测网络。
122.根据本公开的示例性实施例,重拍点概率获取单元94,还被配置为将待处理的音频信号的音频特征输入到重拍检测网络的输入层;针对重拍检测网络的至少一个中间层的每个中间层,将当前中间层输出的第四全局特征、摇摆检测网络中与当前中间层对应的中间层输出的第二中间特征和节拍检测网络中与当前中间层对应的中间层输出的第五全局特征进行拼接,得到第三拼接全局特征,并将第三拼接全局特征输入到当前中间层的下一中间层。
123.根据本公开的示例性实施例,节拍重拍联合检测模型是基于上述节拍重拍联合检测模型的训练方法训练得到的。
124.根据本公开的实施例,可提供一种电子设备。图10是根据本公开实施例的一种电子设备1000的框图,该电子设备包括至少一个存储器1001和至少一个处理器1002,所述至少一个存储器中存储有计算机可执行指令集合,当计算机可执行指令集合被至少一个处理器执行时,执行根据本公开实施例的节拍重拍联合检测模型的训练方法或节拍重拍联合检测方法。
125.作为示例,电子设备1000可以是pc计算机、平板装置、个人数字助理、智能手机、或其他能够执行上述指令集合的装置。这里,电子设备1000并非必须是单个的电子设备,还可以是任何能够单独或联合执行上述指令(或指令集)的装置或电路的集合体。电子设备1000还可以是集成控制系统或系统管理器的一部分,或者可被配置为与本地或远程(例如,经由无线传输)以接口互联的便携式电子设备。
126.在电子设备1000中,处理器1002可包括中央处理器(cpu)、图形处理器(gpu)、可编程逻辑装置、专用处理器系统、微控制器或微处理器。作为示例而非限制,处理器1002还可包括模拟处理器、数字处理器、微处理器、多核处理器、处理器阵列、网络处理器等。
127.处理器1002可运行存储在存储器中的指令或代码,其中,存储器1001还可以存储数据。指令和数据还可经由网络接口装置而通过网络被发送和接收,其中,网络接口装置可采用任何已知的传输协议。
128.存储器1001可与处理器1002集成为一体,例如,将ram或闪存布置在集成电路微处理器等之内。此外,存储器1001可包括独立的装置,诸如,外部盘驱动、存储阵列或任何数据库系统可使用的其他存储装置。存储器1001和处理器1002可在操作上进行耦合,或者可例如通过i/o端口、网络连接等互相通信,使得处理器1002能够读取存储在存储器1001中的文件。
129.此外,电子设备1000还可包括视频显示器(诸如,液晶显示器)和用户交互接口(诸
如,键盘、鼠标、触摸输入装置等)。电子设备的所有组件可经由总线和/或网络而彼此连接。
130.根据本公开的实施例,还可提供一种计算机可读存储介质,其中,当计算机可读存储介质中的指令被至少一个处理器运行时,促使至少一个处理器执行本公开实施例的节拍重拍联合检测模型的训练方法或节拍重拍联合检测方法。这里的计算机可读存储介质的示例包括:只读存储器(rom)、随机存取可编程只读存储器(prom)、电可擦除可编程只读存储器(eeprom)、随机存取存储器(ram)、动态随机存取存储器(dram)、静态随机存取存储器(sram)、闪存、非易失性存储器、cd-rom、cd-r、cd+r、cd-rw、cd+rw、dvd-rom、dvd-r、dvd+r、dvd-rw、dvd+rw、dvd-ram、bd-rom、bd-r、bd-r lth、bd-re、蓝光或光盘存储器、硬盘驱动器(hdd)、固态硬盘(ssd)、卡式存储器(诸如,多媒体卡、安全数字(sd)卡或极速数字(xd)卡)、磁带、软盘、磁光数据存储装置、光学数据存储装置、硬盘、固态盘以及任何其他装置,所述任何其他装置被配置为以非暂时性方式存储计算机程序以及任何相关联的数据、数据文件和数据结构并将所述计算机程序以及任何相关联的数据、数据文件和数据结构提供给处理器或计算机使得处理器或计算机能执行所述计算机程序。上述计算机可读存储介质中的计算机程序可在诸如客户端、主机、代理装置、服务器等计算机设备中部署的环境中运行,此外,在一个示例中,计算机程序以及任何相关联的数据、数据文件和数据结构分布在联网的计算机系统上,使得计算机程序以及任何相关联的数据、数据文件和数据结构通过一个或多个处理器或计算机以分布式方式存储、访问和执行。
131.根据本公开实施例,提供了一种计算机程序产品,包括计算机指令,计算机指令被处理器执行时实现本公开实施例的节拍重拍联合检测模型的训练方法或节拍重拍联合检测方法。
132.本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
133.应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

技术特征:
1.一种节拍重拍联合检测模型的训练方法,其特征在于,所述节拍重拍联合检测模型包括节拍检测网络和重拍检测网络,所述训练方法包括:获取训练样本集;所述训练样本集中包括多个样本音频信号和每个样本音频信号对应的节拍标注信息和重拍标注信息;将样本音频信号的音频特征输入所述节拍检测网络,得到所述样本音频信号中每帧数据的节拍点预测概率,其中,所述节拍点预测概率表示所述样本音频信号中每帧数据是节拍点的预测概率;将所述样本音频信号的音频特征输入到所述重拍检测网络,得到所述样本音频信号中每帧数据的重拍点预测概率,其中,所述重拍点预测概率表示所述样本音频信号中每帧数据是重拍点的预测概率;基于所述节拍点预测概率、所述重拍点预测概率、对应的节拍标注信息和重拍标注信息,计算目标损失函数的值;根据所述目标损失函数的值,对所述节拍检测网络和所述重拍检测网络进行联合训练,得到训练完成的节拍重拍联合检测模型。2.如权利要求1所述的训练方法,其特征在于,所述将样本音频信号的音频特征输入所述节拍检测网络,得到所述样本音频信号中每帧数据的节拍点预测概率,包括:将所述样本音频信号的音频特征输入所述节拍检测网络,得到所述节拍检测网络的至少一个中间层输出的全局特征以及所述样本音频信号中每帧数据的节拍点预测概率;其中,所述将所述样本音频信号的音频特征输入到所述重拍检测网络,得到所述样本音频信号中每帧数据的重拍点预测概率,包括:将所述样本音频信号的音频特征和所述全局特征输入到所述重拍检测网络,得到所述样本音频信号中每帧数据的重拍点预测概率。3.如权利要求2所述的训练方法,其特征在于,所述将所述样本音频信号的音频特征和全局特征输入到所述重拍检测网络,包括:将所述样本音频信号的音频特征输入到所述重拍检测网络的输入层;针对所述重拍检测网络的至少一个中间层的每个中间层,将当前中间层输出的第一全局特征和所述节拍检测网络中与所述当前中间层对应的中间层输出的第二全局特征进行拼接,得到第一拼接全局特征,并将所述第一拼接全局特征输入到所述当前中间层的下一中间层。4.如权利要求2所述的训练方法,其特征在于,所述节拍重拍联合检测模型还包括预先训练好的风格分类网络,所述风格分类网络用于获取样本音频信号的音乐类型;其中,所述将样本音频信号的音频特征输入所述节拍检测网络,包括:将样本音频信号的音频特征输入到所述风格分类网络,得到所述风格分类网络中的至少一个中间层输出的第一中间特征;将所述样本音频信号的音频特征和所述第一中间特征输入到所述节拍检测网络。5.一种节拍重拍联合检测方法,其特征在于,所述节拍重拍联合检测方法利用预先训练的节拍重拍联合检测模型执行节拍重拍联合检测,所述节拍重拍联合检测模型包括节拍检测网络和重拍检测网络,所述节拍重拍联合检测方法包括:
获取待处理的音频信号;将所述待处理的音频信号的音频特征输入所述节拍检测网络,得到所述待处理的音频信号中每帧数据的节拍点概率,其中,所述节拍点概率表示所述待处理的音频信号中每帧数据是节拍点的概率;将所述待处理的音频信号的音频特征输入到重拍检测网络,得到所述待处理的音频信号中每帧数据的重拍点概率,其中,所述重拍点概率表示所述待处理的音频信号中每帧数据是重拍点的概率;根据所述待处理的音频信号中每帧数据是节拍点的概率,以及所述待处理的音频信号中每帧数据是重拍点的概率,确定所述待处理的音频信号的节拍重拍联合检测结果。6.一种节拍重拍联合检测模型的训练装置,其特征在于,所述节拍重拍联合检测模型包括节拍检测网络和重拍检测网络,所述训练装置包括:样本集获取单元,被配置为获取训练样本集,其中,所述训练样本集中包括多个样本音频信号和每个样本音频信号对应的节拍标注信息和重拍标注信息;节拍点概率获取单元,被配置为将样本音频信号的音频特征输入所述节拍检测网络,得到所述样本音频信号中每帧数据的节拍点预测概率,其中,所述节拍点预测概率表示所述样本音频信号中每帧数据是节拍点的预测概率;重拍点概率获取单元,被配置为将所述样本音频信号的音频特征所述输入到重拍检测网络,得到所述样本音频信号中每帧数据的重拍点预测概率,其中,所述重拍点预测概率表示所述样本音频信号中每帧数据是重拍点的预测概率;目标损失函数确定单元,被配置为基于所述节拍点预测概率、所述重拍点预测概率、对应的节拍标注信息和重拍标注信息,计算目标损失函数的值;训练单元,被配置为根据所述目标损失函数的值,对所述节拍检测网络和所述重拍检测网络进行联合训练,得到训练完成的节拍重拍联合检测模型。7.一种节拍重拍联合检测装置,其特征在于,所述节拍重拍联合检测装置利用预先训练的节拍重拍联合检测模型执行节拍重拍联合检测,所述节拍重拍联合检测模型包括节拍检测网络和重拍检测网络,所述节拍重拍联合检测装置包括:音频信号获取单元,被配置为获取待处理的音频信号;节拍点概率获取单元,被配置为将所述待处理的音频信号的音频特征输入节拍检测网络,得到所述待处理的音频信号中每帧数据的节拍点概率,其中,所述节拍点概率表示所述待处理的音频信号中每帧数据是节拍点的概率;重拍点概率获取单元,被配置为将所述待处理的音频信号的音频特征所述输入到重拍检测网络,得到所述待处理的音频信号中每帧数据的重拍点概率,其中,所述重拍点概率表示所述待处理的音频信号中每帧数据是重拍点的概率;确定单元,被配置为根据所述待处理的音频信号中每帧数据是节拍点的概率,以及所述待处理的音频信号中每帧数据是重拍点的概率,确定所述待处理的音频信号的节拍重拍联合检测结果。8.一种电子设备,其特征在于,包括:处理器;用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述指令,以实现如权利要求1至4中任一项所述的节拍重拍联合检测模型的训练方法或权利要求5所述的节拍重拍联合检测方法。9.一种计算机可读存储介质,其特征在于,当所述计算机可读存储介质中的指令被至少一个处理器运行时,促使所述至少一个处理器执行如权利要求1至4中任一项所述的节拍重拍联合检测模型的训练方法或权利要求5所述的节拍重拍联合检测方法。10.一种计算机程序产品,包括计算机指令,其特征在于,所述计算机指令被处理器执行时实现如权利要求1至4中任一项所述的节拍重拍联合检测模型的训练方法或权利要求5所述的节拍重拍联合检测方法。

技术总结
本公开关于一种节拍重拍联合检测模型的训练及节拍重拍联合检测方法。训练方法包括:获取训练样本集,其中,训练样本集中包括多个样本音频信号和每个样本音频信号对应的节拍标注信息和重拍标注信息;将样本音频信号的音频特征输入节拍检测网络,得到样本音频信号中每帧数据的节拍点预测概率;将样本音频信号的音频特征输入到重拍检测网络,得到样本音频信号中每帧数据的重拍点预测概率;基于节拍点预测概率、重拍点预测概率、对应的节拍标注信息和重拍标注信息,计算目标损失函数的值;根据目标损失函数的值,对节拍检测网络和重拍检测网络进行联合训练,得到训练完成的节拍重拍联合检测模型。合检测模型。合检测模型。


技术研发人员:范欣悦 张旭 郑羲光 张晨
受保护的技术使用者:北京达佳互联信息技术有限公司
技术研发日:2021.12.03
技术公布日:2022/3/8

最新回复(0)