1.本技术涉及语音识别领域,尤其涉及一种语音场景篡改鉴别的方法、装置、电子设备及存储介质。
背景技术:
2.伪造语音检测是判别音频为真实人声还是由录音、语音合成、语音转换技术生成的伪造语音。目前,语音场景篡改危害严重,比如,对于法庭证据的材料,被告人通过对语音场景的篡改,提供了伪造的不在场证明,从而,改变判决结果。
3.然而,现有技术没有考虑篡改语音场景信息的情况,即,使用音频去噪技术对原始音频的场景进行消除,在此基础上叠加其他场景的音频,达到篡改语音场景的目的。
技术实现要素:
4.为了解决上述技术问题或者至少部分地解决上述技术问题,本技术的实施例提供了一种语音场景篡改鉴别的方法、装置、电子设备及存储介质。
5.第一方面,本技术的实施例提供了一种语音场景篡改鉴别的方法,包括以下步骤:提取输入的待鉴别音频的对数功率谱的声学特征;将提取的待鉴别音频的对数功率谱的声学特征输入预先训练的语音场景篡改识别模型中,输出待鉴别音频是否被篡改的结果,其中,所述语音场景篡改识别模型由语音场景篡改后的音频与原始语音数据按照预设比例混合作为训练集训练得到的。
6.优选地,所述提取输入的待鉴别音频的对数功率谱的声学特征,包括:对待鉴别音频信号的时域波形图进行短时傅里叶变换,得到变换后的复数矩阵;根据变换后的复数矩阵生成二维像素矩阵,作为对数功率谱的声学特征。
7.优选地,所述复数矩阵包括实部矩阵和虚部矩阵,根据变换后的复数矩阵生成二维像素矩阵,作为对数功率谱的声学特征,包括:调整实部矩阵和虚部矩阵的横坐标和纵坐标,使得实部矩阵和虚部矩阵的横坐标和纵坐标的最值均相同;将调整后的实部矩阵和虚部矩阵拼接为二维像素矩阵,以作为双通道矩阵输入预先训练的语音场景篡改识别模型。
8.优选地,通过以下表达式,将调整后的实部矩阵和虚部矩阵拼接为二维像素矩阵:其中,lps为二维像素矩阵的像素纵坐标取值,log表示取对数操作,xr为与二维像素矩阵同一像素横坐标下实部矩阵的像素纵坐标取值,xi为与二维像素矩阵同一像素横坐标下虚部矩阵的像素纵坐标取值。
9.优选地,所述语音场景篡改识别模型由语音场景篡改后的音频与原始语音数据按照预设比例混合作为训练集训练得到,包括:
对原始语音数据进行语音场景篡改,得到语音场景篡改后的音频;将语音场景篡改后的音频与原始语音数据按照预设比例混合为训练集;提取训练集的语音的对数功率谱的声学特征;利用训练集的语音的对数功率谱的声学特征训练神经网络,得到语音场景篡改识别模型。
10.优选地,所述神经网络为膨胀压缩神经网络、深度神经网络、卷积神经网络和循环神经网络中的任意一种。
11.优选地,所述卷积神经网络包括卷积层、mfm激活层、最大池化层、批归一化层和全连接层。
12.第二方面,本技术的实施例提供了一种语音场景篡改鉴别装置,其特征在于,包括:提取模块,其用于提取输入的待鉴别音频的对数功率谱的声学特征;输出模块,其用于将提取的待鉴别音频的对数功率谱的声学特征输入预先训练的语音场景篡改识别模型中,输出待鉴别音频是否被篡改的结果,其中,所述语音场景篡改识别模型由语音场景篡改后的音频与原始语音数据按照预设比例混合作为训练集训练得到的。
13.第三方面,本技术的实施例提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;存储器,用于存放计算机程序;处理器,用于执行存储器上所存放的程序时,实现上述的语音场景篡改鉴别的方法步骤。
14.第四方面,本技术的实施例提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述的语音场景篡改鉴别的方法步骤。
15.本技术实施例提供的上述技术方案与现有技术相比具有如下优点:本技术实施例提供的该方法,提取输入的待鉴别音频的对数功率谱的声学特征;将提取的待鉴别音频的对数功率谱的声学特征输入预先训练的语音场景篡改识别模型中,输出待鉴别音频是否被篡改的结果,本技术能够通过待鉴别音频的对数功率谱识别出语音的篡改,特别是能够应用于语音场景的篡改,从而应对语音场景篡改这一手段的危害。
附图说明
16.此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本技术的实施例,并与说明书一起用于解释本技术的原理。
17.为了更清楚地说明本技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
18.图1示意性示出了本技术实施例提供的一种语音场景篡改鉴别的方法的流程示意图;图2示意性示出了本技术实施例步骤s1的详细流程示意图;图3示意性示出了本技术实施例步骤s22的详细流程示意图;
图4(a)示意性示出了本技术实施例的时域上的原始波形;图4(b)示意性示出了本技术实施例的经过短时傅里叶变换的相位谱图;图4(c)示意性示出了本技术实施例的经过短时傅里叶变换的幅值谱图;图5示意性示出了本技术实施例步骤s2的详细流程示意图;图6示意性示出了本技术另一实施例提供的一种语音场景篡改鉴别的方法的流程示意图;图7示意性示出了本技术实施例的语音场景篡改鉴别装置的结构示意图;以及图8示意性示出了本技术实施例提供的一种电子设备结构示意图。
具体实施方式
19.为使本技术实施例的目的、技术方案和优点更加清楚,下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本技术的一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本技术保护的范围。
20.图1为本技术实施例提供的一种语音场景篡改鉴别的方法的流程示意图。如图1所示,本技术的语音场景篡改鉴别的方法,以下步骤:s1,提取输入的待鉴别音频的对数功率谱的声学特征;s2,将提取的待鉴别音频的对数功率谱的声学特征输入预先训练的语音场景篡改识别模型中,输出待鉴别音频是否被篡改的结果,其中,所述语音场景篡改识别模型由语音场景篡改后的音频与原始语音数据按照预设比例混合作为训练集训练得到的。
21.如图2所示,步骤s1中,所述提取输入的待鉴别音频的对数功率谱的声学特征,包括:s21,对待鉴别音频信号的时域波形图进行短时傅里叶变换,得到变换后的复数矩阵,其中,所述复数矩阵包括实部矩阵和虚部矩阵;在实际应用中,所述对待鉴别音频信号的时域波形图进行短时傅里叶变换,得到变换后的复数矩阵可以通过librosa工具包实现,其中,librosa工具包是一种用于音频、音乐分析、处理的语音处理库。
22.在实际应用中,通过以下表达式,对待鉴别音频信号的时域波形图进行短时傅里叶变换:其中,为时域上的原始波形,k为时间索引,为短时傅里叶变换,和分别为短时傅里叶变换的实部矩阵和虚部矩阵。
23.s22,根据变换后的复数矩阵生成二维像素矩阵,作为对数功率谱的声学特征。表示如图3所示,步骤s22中,根据变换后的复数矩阵生成二维像素矩阵,作为对数功率谱的声学特征,包括:s31,调整实部矩阵和虚部矩阵的横坐标和纵坐标,使得实部矩阵和虚部矩阵的横坐标和纵坐标的最值均相同;在实际应用中,所述实部和虚部为短时傅里叶变换后的频域一个信号在不同频率下的复数实部和虚部,实部矩阵可以是幅值谱图,虚部矩阵可以是相位谱图。
24.s32,将调整后的实部矩阵和虚部矩阵拼接为二维像素矩阵,以作为双通道矩阵输入预先训练的语音场景篡改识别模型。
25.在实际应用中,通过以下表达式,将调整后的实部矩阵和虚部矩阵拼接为二维像素矩阵:其中,lps为二维像素矩阵的像素纵坐标取值,log表示取对数操作,将与二维像素矩阵同一像素横坐标下两个短时傅里叶变换后的实部矩阵xr和虚部矩阵xi的像素纵坐标取值的平方和再开根号。
26.在实际应用中,如图4(a)所示的时域上的原始波形,经过短时傅里叶变换为如图4(b)所示的虚部矩阵和如图4(c)所示的实部矩阵;将如图4(b)所示的虚部矩阵和如图4(c)所示的实部矩阵的横坐标统一为0~900,纵坐标统一为-4~250;将横坐标和纵坐标统一后的虚部矩阵和实部矩阵分别对应的像素矩阵拼接为二维像素矩阵。
27.如图5所示,步骤s2中,所述语音场景篡改识别模型由语音场景篡改后的音频与原始语音数据按照预设比例混合作为训练集训练得到,包括:s51,对原始语音数据进行语音场景篡改,得到语音场景篡改后的音频;s52,将语音场景篡改后的音频与原始语音数据按照预设比例混合为训练集;s53,提取训练集的语音的对数功率谱的声学特征;s54,利用训练集的语音的对数功率谱的声学特征训练神经网络,得到语音场景篡改识别模型。
28.在本实施例中,步骤s52中,所述预设比例可以为1:1。
29.在本实施例中,步骤s54中,所述神经网络为膨胀压缩神经网络、深度神经网络、卷积神经网络和循环神经网络中的任意一种。
30.其中,所述卷积神经网络包括卷积层、mfm激活层、最大池化层、批归一化层和全连接层,具体包括:第一卷积层、第一mfm激活层、第一最大池化层、第二卷积层、第二mfm激活层、第一批归一化层、第三卷积层、第三mfm激活层、第二最大池化层、第二批归一化层、第四卷积层、第四mfm激活层、第三批归一化层、第五卷积层、第五mfm激活层、第三最大池化层、第六卷积层、第六mfm激活层、第四批归一化层、第七卷积层、第七mfm激活层、第五批归一化层、第八卷积层、第八mfm激活层、第六批归一化层、第九卷积层、第九mfm激活层、第一全连接层、第十mfm激活层、第七批归一化层、第二全连接层。
31.在本实施例中,步骤s54中,所述语音场景篡改识别模型训练200轮,其中,在所述训练过程中,选择adam优化器,初始学习率为0.001,批数据大小为128。
32.其中,所述膨胀压缩神经网络的网络结构如下表1所示。
33.表1
表1中的conv2d为二维卷积层,se模块为膨胀压缩模块,batchnorm为批归一化操作,网络最后输出为真伪二分类结果。
34.在所述膨胀压缩神经网络的训练过程中,选择adam为优化器,模型训练32轮,初始学习率设为0.0001,批数据大小(batch size)为64。
35.如图6所示,在进行音频信号伪造鉴别时,首先把原始音频数据与语音场景篡改后的音频按照1:1混合后作为训练集,随后对训练集的语音进行声学特征提取。然后将提取好的声学特征送入卷积神经网络训练,最后将测试集的语音同样也做声学特征提取并输入训练好的网络得到音频的语音真伪的二分类结果。
36.本技术通过对抗样本处理方法,在训练集中加入语音场景篡改数据,能够提升语音场景篡改的识别准确率,以应对语音场景篡改这一手段的危害。
37.本技术的语音场景篡改鉴别的方法通过待鉴别音频的对数功率谱识别出语音的篡改,能够应用于语音场景的篡改,以解决现有技术在语音场景篡改情景中还处于空白阶段的问题。
38.基于同一发明构思,如图7所示,本技术实施例提供了一种语音场景篡改鉴别装置,所述装置包括:提取模块11和输出模块12。
39.在本实施例中,提取模块11,其用于提取输入的待鉴别音频的对数功率谱的声学特征;在本实施例中,输出模块12,其用于将提取的待鉴别音频的对数功率谱的声学特征输入预先训练的语音场景篡改识别模型中,输出待鉴别音频是否被篡改的结果,其中,所述语音场景篡改识别模型由语音场景篡改后的音频与原始语音数据按照预设比例混合作为训练集训练得到的。
40.在一些实施例中,所述提取模块,还用于:对待鉴别音频信号的时域波形图进行短时傅里叶变换,得到变换后的幅值谱图和相位谱图;根据幅值谱图和相位谱图生成二维像素矩阵,作为对数功率谱的声学特征。
41.在一些实施例中,所述提取模块,还用于:调整实部矩阵和虚部矩阵的横坐标和纵坐标,使得实部矩阵和虚部矩阵的横坐标和纵坐标的最值均相同;将调整后的实部矩阵和虚部矩阵拼接为二维像素矩阵,以作为双通道矩阵输入预
先训练的语音场景篡改识别模型。
42.在一些实施例中,在所述提取模块中,通过以下表达式,将调整后的实部矩阵和虚部矩阵拼接为二维像素矩阵:其中,lps为二维像素矩阵的像素纵坐标取值,log表示取对数操作,xr为与二维像素矩阵同一像素横坐标下实部矩阵的像素纵坐标取值,xi为与二维像素矩阵同一像素横坐标下虚部矩阵的像素纵坐标取值。
43.在一些实施例中,在所述输出模块中,所述语音场景篡改鉴别模型通过以下步骤训练得到:对原始语音数据进行语音场景篡改,得到语音场景篡改后的音频;将语音场景篡改后的音频与原始语音数据按照预设比例混合为训练集;提取训练集的语音的对数功率谱的声学特征;利用训练集的语音的对数功率谱的声学特征训练神经网络,得到语音场景篡改识别模型。
44.在一些实施例中,在所述输出模块中,所述神经网络为膨胀压缩神经网络、深度神经网络、卷积神经网络和循环神经网络中的任意一种。
45.在一些实施例中,在所述输出模块中,所述卷积神经网络包括卷积层、mfm激活层、最大池化层、批归一化层和全连接层。
46.上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程,在此不再赘述。
47.对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本技术方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
48.基于同一发明构思,如图8所示,本技术实施例提供了一种电子设备,包括处理器1110、通信接口1120、存储器1130和通信总线1140,其中,处理器1110,通信接口1120,存储器1130通过通信总线1140完成相互间的通信;存储器1130,用于存放计算机程序;处理器1110,用于执行存储器1130上所存放的程序时,实现如下所示语音场景篡改鉴别的方法:提取输入的待鉴别音频的对数功率谱的声学特征;将提取的待鉴别音频的对数功率谱的声学特征输入预先训练的语音场景篡改识别模型中,输出待鉴别音频是否被篡改的结果。
49.上述的通信总线1140可以是外设部件互连标准(peripheral component interconnect,简称pci)总线或扩展工业标准结构(extended industry standard architecture,简称eisa)总线等。该通信总线1140可以分为地址总线、数据总线、控制总线
等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
50.通信接口1120用于上述电子设备与其他设备之间的通信。
51.存储器1130可以包括随机存取存储器(random access memory,简称ram),也可以包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。可选的,存储器1130还可以是至少一个位于远离前述处理器1110的存储装置。
52.上述的处理器1110可以是通用处理器,包括中央处理器(central processing unit,简称cpu)、网络处理器(network processor,简称np)等;还可以是数字信号处理器(digital signal processing,简称dsp)、专用集成电路(application specific integrated circuit,简称asic)、现场可编程门阵列(field-programmable gate array,简称fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
53.基于同一发明构思,本技术实施例提供了一种计算机可读存储介质,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现上述任意可能的实现方式中的语音场景篡改鉴别的方法。
54.可选地,存储介质可以是非临时性计算机可读存储介质,例如,所述非临时性计算机可读存储介质可以是rom、随机存取存储器(ram)、cd-rom、磁带、软盘和光数据存储设备等。
55.基于同一发明构思,本技术实施例还提供了一种计算机可读存储介质,包括计算机程序,所述程序被处理器执行时实现上述任意可能的实现方式中的语音场景篡改鉴别的方法。
56.在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行计算机程序指令时,全部或部分地产生按照本技术实施例的流程或功能。计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(dsl))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,dvd)、或者半导体介质(例如固态硬盘solid state disk(ssd))等。
57.最后应说明的是:以上实施例仅用以说明本技术的技术方案,而非对其限制;尽管参照前述实施例对本技术进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本技术各实施例技术方案的精神和范围。
技术特征:
1.一种语音场景篡改鉴别的方法,其特征在于,包括以下步骤:提取输入的待鉴别音频的对数功率谱的声学特征;将提取的待鉴别音频的对数功率谱的声学特征输入预先训练的语音场景篡改识别模型中,输出待鉴别音频场景是否被篡改的结果,其中,所述语音场景篡改识别模型由语音场景篡改后的音频与原始语音数据按照预设比例混合作为训练集训练得到的。2.根据权利要求1所述的方法,其特征在于,所述提取输入的待鉴别音频的对数功率谱的声学特征,包括:对待鉴别音频信号的时域波形图进行短时傅里叶变换,得到变换后的复数矩阵;根据变换后的复数矩阵生成二维像素矩阵,作为对数功率谱的声学特征。3.根据权利要求2所述的方法,其特征在于,所述复数矩阵包括实部矩阵和虚部矩阵,根据变换后的复数矩阵生成二维像素矩阵,作为对数功率谱的声学特征,包括:调整实部矩阵和虚部矩阵的横坐标和纵坐标,使得实部矩阵和虚部矩阵的横坐标和纵坐标的最值均相同;将调整后的实部矩阵和虚部矩阵拼接为二维像素矩阵,以作为双通道矩阵输入预先训练的语音场景篡改识别模型。4.根据权利要求3所述的方法,其特征在于,通过以下表达式,将调整后的实部矩阵和虚部矩阵拼接为二维像素矩阵:其中,lps为二维像素矩阵的像素纵坐标取值,log表示取对数操作,x
r
为与二维像素矩阵同一像素横坐标下实部矩阵的像素纵坐标取值,x
i
为与二维像素矩阵同一像素横坐标下虚部矩阵的像素纵坐标取值。5.根据权利要求1所述的方法,其特征在于,所述语音场景篡改识别模型由语音场景篡改后的音频与原始语音数据按照预设比例混合作为训练集训练得到,包括:对原始语音数据进行语音场景篡改,得到语音场景篡改后的音频;将语音场景篡改后的音频与原始语音数据按照预设比例混合为训练集;提取训练集的语音的对数功率谱的声学特征;利用训练集的语音的对数功率谱的声学特征训练神经网络,得到语音场景篡改识别模型。6.根据权利要求5所述的方法,其特征在于,所述神经网络为膨胀压缩神经网络、深度神经网络、卷积神经网络和循环神经网络中的任意一种。7.根据权利要求6所述的方法,其特征在于,所述卷积神经网络包括卷积层、mfm激活层、最大池化层、批归一化层和全连接层。8.一种语音场景篡改鉴别装置,其特征在于,包括:提取模块,其用于提取输入的待鉴别音频的对数功率谱的声学特征;输出模块,其用于将提取的待鉴别音频的对数功率谱的声学特征输入预先训练的语音场景篡改识别模型中,输出待鉴别音频场景是否被篡改的结果,其中,所述语音场景篡改识别模型由语音场景篡改后的音频与原始语音数据按照预设比例混合作为训练集训练得到的。
9.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;存储器,用于存放计算机程序;处理器,用于执行存储器上所存放的程序时,实现权利要求1-7任一项所述的语音场景篡改鉴别的方法步骤。10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-7任一项所述的语音场景篡改鉴别的方法步骤。
技术总结
本申请涉及一种语音场景篡改鉴别的方法、装置、电子设备及存储介质,所述语音场景篡改鉴别的方法,包括以下步骤:提取输入的待鉴别音频的对数功率谱的声学特征;将提取的待鉴别音频的对数功率谱的声学特征输入预先训练的语音场景篡改识别模型中,输出待鉴别音频场景是否被篡改的结果,其中,所述语音场景篡改识别模型由语音场景篡改后的音频与原始语音数据按照预设比例混合作为训练集训练得到的,本申请能够通过待鉴别音频的对数功率谱识别出语音的篡改,特别是能够应用于语音场景的篡改,从而应对语音场景篡改这一手段的危害。从而应对语音场景篡改这一手段的危害。从而应对语音场景篡改这一手段的危害。
技术研发人员:陶建华 王成龙 易江燕
受保护的技术使用者:中国科学院自动化研究所
技术研发日:2022.02.09
技术公布日:2022/3/8