神经网络图像压缩解码器中的有效激活函数的制作方法

专利查询2月前  41


本公开提供了用于图像压缩的有效神经网络模块。该结构可以提供合理的压缩性能,同时大幅降低图像压缩模型的复杂度。


背景技术:

1、目前,iso/iec mpeg(jtc 1/sc 29/wg 11)一直在积极寻找未来视频编码技术标准化的潜在需求。iso/iec jpeg成立了jpeg-ai小组,专注于使用深度神经网络(deepneural network,dnn)进行基于ai的端到端(end-to-end,e2e)神经图像压缩。中国avs标准还成立了avs-ai专项小组,致力于神经图像和视频压缩技术。与此同时,团队也资助了针对nic的专项研究项目。最近这些方法的成功为先进神经图像和视频压缩技术带来了越来越多的工业兴趣。

2、传统的混合视频编解码器难以优化。单个模块的改进可能不会在整体性能上带来编码增益。相比之下,在基于人工神经网络的视频/图像编码框架中,通过执行机器学习过程,可以从输入到输出联合优化不同模块以改善最终目标(例如,率失真性能),从而实现端到端优化的神经图像压缩(neural image compression,nic)。

3、因此,由于这些原因,人们渴望获得计算机技术中出现的此类问题的技术解决方案。


技术实现思路

1、根据本公开的一个方面,存在一种装置,并且类似地,存在一种方法和计算机可读介质,该装置包括:至少一个存储器,该至少一个存储器被配置为存储计算机程序代码;以及至少一个处理器,该至少一个处理器被配置为访问该计算机程序代码并按照该计算机程序代码的指示操作,该计算机程序代码包括:接收代码,该接收代码被配置为使该至少一个处理器接收包括当前图片中的当前块的视频码流;以及重建代码,该重建代码被配置为使该至少一个处理器通过由包括多个上采样模块和激活模块的神经网络对该当前块进行变换来重建该当前块,并且激活模块的至少一个激活模块包括leakyrelu函数和卷积函数。

2、此外,在激活模块的至少一个激活模块中,leakyrelu函数的输出可以是卷积函数的输入。

3、此外,在激活模块的至少一个激活模块中,卷积函数的输出可以是激活模块的至少一个激活模块的乘法函数的输入。

4、此外,在激活模块的至少一个激活模块中,乘法函数的输出可以是激活模块的至少一个激活模块的加法函数的输入。

5、此外,在激活模块的至少一个激活模块中,卷积函数的输出可以是激活模块的至少一个激活模块的加法函数的输入。

6、此外,在激活模块的至少一个激活模块中,卷积函数的输出可以是激活模块的至少一个激活模块的第二leakyrelu函数的输入。

7、此外,在激活模块的至少一个激活模块中,第二leakyrelu函数的输出可以是激活模块的至少一个激活模块的乘法函数的输入。

8、此外,在激活模块的至少一个激活模块中,乘法函数的输出可以是激活模块的至少一个激活模块的加法函数的输入。

9、此外,卷积函数可以包括1x1卷积核。

10、此外,上采样模块中的至少一个上采样模块可以包括像素重排(pixel shuffle)层。



技术特征:

1.一种视频解码的方法,由至少一个处理器执行,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,在所述激活模块的所述至少一个激活模块中,所述leakyrelu函数的输出是所述卷积函数的输入。

3.根据权利要求2所述的方法,其特征在于,在所述激活模块的所述至少一个激活模块中,所述卷积函数的输出是所述激活模块的所述至少一个激活模块的乘法函数的输入。

4.根据权利要求3所述的方法,其特征在于,在所述激活模块的所述至少一个激活模块中,所述乘法函数的输出是所述激活模块的所述至少一个激活模块的加法函数的输入。

5.根据权利要求2所述的方法,其特征在于,在所述激活模块的所述至少一个激活模块中,所述卷积函数的输出是所述激活模块的所述至少一个激活模块的加法函数的输入。

6.根据权利要求2所述的方法,其特征在于,在所述激活模块的所述至少一个激活模块中,所述卷积函数的输出是所述激活模块的所述至少一个激活模块的第二leakyrelu函数的输入。

7.根据权利要求6所述的方法,其特征在于,在所述激活模块的所述至少一个激活模块中,所述第二leakyrelu函数的输出是所述激活模块的所述至少一个激活模块的乘法函数的输入。

8.根据权利要求7所述的方法,其特征在于,在所述激活模块的所述至少一个激活模块中,所述乘法函数的输出是所述激活模块的所述至少一个激活模块的加法函数的输入。

9.根据权利要求2所述的方法,其特征在于,所述卷积函数包括1x1卷积核。

10.根据权利要求1所述的方法,其特征在于,所述上采样模块中的至少一个上采样模块包括像素重排层。

11.一种装置,包括:

12.根据权利要求11所述的装置,其特征在于,在所述激活模块的所述至少一个激活模块中,所述leakyrelu函数的输出是所述卷积函数的输入。

13.根据权利要求12所述的装置,其特征在于,在所述激活模块的所述至少一个激活模块中,所述卷积函数的输出是所述激活模块的所述至少一个激活模块的乘法函数的输入。

14.根据权利要求13所述的装置,其特征在于,在所述激活模块的所述至少一个激活模块中,所述乘法函数的输出是所述激活模块的所述至少一个激活模块的加法函数的输入。

15.根据权利要求12所述的装置,其特征在于,在所述激活模块的所述至少一个激活模块中,所述卷积函数的输出是所述激活模块的所述至少一个激活模块的加法函数的输入。

16.根据权利要求12所述的装置,其特征在于,在所述激活模块的所述至少一个激活模块中,所述卷积函数的输出是所述激活模块的所述至少一个激活模块的第二leakyrelu函数的输入。

17.根据权利要求16所述的装置,其特征在于,在所述激活模块的所述至少一个激活模块中,所述第二leakyrelu函数的输出是所述激活模块的所述至少一个激活模块的乘法函数的输入。

18.根据权利要求17所述的装置,其特征在于,在所述激活模块的所述至少一个激活模块中,所述乘法函数的输出是所述激活模块的所述至少一个激活模块的加法函数的输入。

19.根据权利要求12所述的装置,其特征在于,所述卷积函数包括1x1卷积核。

20.一种非暂时性计算机可读介质,存储有程序,所述程序使得计算机执行下述操作:


技术总结
一种包括计算机代码的方法和装置,所述计算机代码被配置为使一个或多个处理器接收包括当前图片中的当前块的视频码流,以及通过由包括多个上采样模块和激活模块的神经网络对所述当前块进行变换来重建所述当前块,并且所述激活模块中的至少一个激活模块包括LeakyReLu函数和卷积函数。

技术研发人员:丁鼎,许晓中,刘杉
受保护的技术使用者:腾讯美国有限责任公司
技术研发日:
技术公布日:2024/12/5

最新回复(0)