基于数字视网膜的视频编码方法、系统及存储介质与流程

专利查询2023-11-7  105



1.本技术属于数字信号处理技术领域,具体地,涉及一种基于数字视网膜的视频编码方法、系统及存储介质。


背景技术:

2.视频压缩,也称数字视网膜概念在视频编解码、视频监控等领域引起很大关注。传统的图像处理领域,视频压缩和视频分析分属不同的两个领域,数字视网膜技术受人类视网膜的生物学功能启发,率先提出了视频压缩、视频分析一体化的智能图像传感器。具体而言,数字视网膜的特点在于能够同时获得视频压缩数据和视频特征数据,并通过数据流传送至云端,便于后期的回放和检索。为了获取图像的特征流,数字视网膜技术引入了模型流的概念,也就是说图像采集前端可以根据需求应用不同的特征提取模型,这些模型可以通过云端存储和反向传输的方式发送到图像采集前端。
3.在视频压缩方面,视频编码的目的是消除视频信号间存在的冗余信息。不断优化的视频编码标准有助于进一步提升视频图像的压缩效率。基于分块的视频压缩编解码技术发展得非常成熟,其具有计算复杂度适中、压缩率高、重建质量高等特点。目前主流的编解码技术包括h.264/h.265/h.266以及mpeg2/mpeg4等,均主要以基于分块的视频编解码技术。新一代的编码标准所采用的技术都是通过“计算换空间”的方法来提升压缩比率。例如从h.264到h.265的演进,压缩率提升了50%,但是同时也带来了更大的计算需求。这是由于使用了更灵活的编码单元,更灵活的参考帧使得基于运动补偿的压缩方法挖掘出了更多的压缩潜力。
4.然而,视频编码的本质上仍然是基于像素层面的冗余性压缩,所以编码单元仍然是一个相对较小的数据块。例如h.265所使用的编码树单元最大也只有64*64。这个尺度的编码单元无法对图像的语义内容进行有效的提取和压缩。


技术实现要素:

5.本发明提出了一种基于数字视网膜的视频编码方法、系统及存储介质,旨在解决现有技术中视频压缩编码中压缩性能低的问题。
6.根据本技术实施例的第一个方面,提供了一种基于数字视网膜的视频压缩方法,包括以下步骤:获取输入图像,基于块进行帧间/帧内预测,得到第一编码预测数据;根据输入图像,通过基于深度模型的深度预测模型进行帧间/帧内预测,得到第二编码预测数据;当第二编码预测数据量小于第一编码数据量时,根据第二编码预测数据进行编码。
7.在本技术一些实施方式中,输入图像后,还包括选定编码区域,编码区域的视频编码方法具体包括:
基于块进行帧间/帧内预测,得到编码区域的第一编码预测数据;基于深度预测模型进行帧间/帧内预测,得到编码区域的第二编码预测数据;当编码区域的第二编码预测数据量小于第一编码数据量时,将第二编码预测数据作为编码区域的编码数据进行编码;其中,编码数据还包括编码区域编号、编码方式以及对应的解码模型。
8.在本技术一些实施方式中,还包括:当编码区域的第二编码预测数据量大于或等于第一编码数据量时,将第一编码预测数据作为编码区域的编码数据进行编码;其中,编码数据还包括编码区域编号以及编码方式。
9.在本技术一些实施方式中,获取输入图像,基于块进行帧间/帧内预测,得到第一编码预测数据,具体包括:将输入图像输入帧间/帧内预测模块,得到第一帧间/帧内预测值;根据帧间/帧内预测值以及运动补偿值,得到第一残差值;第一残差值通过变换器和量化器后得到第一编码预测数据。
10.在本技术一些实施方式中,第一帧间/帧内预测值还输入至深度预测模型,相应的,根据输入图像,通过基于深度模型的深度预测模型进行帧间/帧内预测,得到第二编码预测数据,具体包括:根据输入图像以及第一帧间/帧内预测值,基于深度预测模型进行帧间/帧内预测,得到第二编码预测数据。
11.在本技术一些实施方式中,根据输入图像,基于深度预测模型进行帧间/帧内预测,得到第二编码预测数据,具体包括:将图像输入深度预测模型,得到第二帧间/帧内预测值;根据第二帧间/帧内预测值得到第二残差值;第二残差值通过量化器后得到第二编码预测数据。
12.在本技术一些实施方式中,第二残差值通过变换器和量化器后得到第二编码预测数据。
13.在本技术一些实施方式中,深度预测模型包括多个模型,根据输入图像,基于深度预测模型进行帧间/帧内预测,得到第二编码预测数据,还包括:将图像的同一数据帧同时输入深度预测模型的多个模型,得到多个第二帧间/帧内预测值;根据多个第二帧间/帧内预测值得到多个第二残差值;选取多个第二残差值中最小的第二残差值以及对应的模型。
14.根据本技术实施例的第二个方面,提供了一种基于数字视网膜的视频编码系统,具体包括:第一编码预测单元:用于获取输入图像,基于块进行帧间/帧内预测,得到第一编码预测数据;第二编码预测单元:用于根据输入图像,基于深度预测模型进行帧间/帧内预测,得到第二编码预测数据;编码方式判决器:用于当第二编码预测数据量小于第一编码数据量时,根据第二
编码预测数据进行编码。
15.根据本技术实施例的第三个方面,提供了一种计算机可读存储介质,其上存储有计算机程序;计算机程序被处理器执行以实现视频编码方法。
16.采用本技术实施例中的基于数字视网膜的视频编码方法、系统及存储介质,获取输入图像,基于块进行帧间/帧内预测,得到第一编码预测数据;根据输入图像,基于深度预测模型进行帧间/帧内预测,得到第二编码预测数据;当第二编码预测数据量小于第一编码数据量时,根据第二编码预测数据进行编码。本技术自适应选择编码压缩方式,同时利用深度模型的特征提取能力,进一步对图像中的冗余信息进行压缩,大大提升了编码性以及实现了更高的压缩比率。
附图说明
17.此处所说明的附图用来提供对本技术的进一步理解,构成本技术的一部分,本技术的示意性实施例及其说明用于解释本技术,并不构成对本技术的不当限定。在附图中:图1中示出了现有技术中传统的基于运动预测和补偿的视频压缩流程图;图2中示出了现有视频帧编码的示意图;图3中示出了一种视频帧内建筑静止不变的示意图;图4中示出了数字视网膜原理的示意图;图5中示出了根据本技术实施例的一种基于数字视网膜的视频编码方法的步骤流程图;图6中示出了根据本技术实施例的一种视频编码原理示意图;图7中示出了根据本技术另一实施例的一种视频编码原理示意图;图8中示出了根据本技术实施例中实际图像编码示意图;图9中示出了根据本技术实施例一个基于深度预测模型的示意图;图10中示出了根据本技术另一实施例的一种视频编码原理示意图;图11中示出了根据图10的视频编码方式进行实际图像处理过程的示意图;图12中示出了对应本技术视频编码的解码原理示意图;图13示出了根据本技术实施例的一种基于数字视网膜的视频编码系统的结构示意图。
18.图14中示出了根据本技术实施例的视频编码设备的结构示意图。
具体实施方式
19.在实现本技术的过程中,发明人在发现现有视频编码压缩性能低的基础上,还发现了数字视网膜所使用的深度模型则能够通过深度神经网络实现对图像逐级抽象,并获得不同尺度的语义特征。进一步,如果同样使用深度模型,也能够基于语义特征对图像进行重建。因此,深度模型能够基于特征实现图像压缩并实现更高的压缩效率,尽管这种压缩意味着比最先进的视频编码技术更高的计算复杂度。
20.图1中示出了现有技术中传统的基于运动预测和补偿的视频压缩流程图。
21.如图1所示,图1中e为运动补偿后的残差值。该残差值通过变换器、量化器、熵编码器后进行传输或存储。其中常见的量化器可以是dct量化器。
22.图2中示出了现有视频帧编码的示意图。图3中示出了一种视频帧内建筑静止不变的示意图。
23.如图2所示,一个图像在编码段被分割成可以独立编解码的条带(slice)。每个条带内被分割成多个编码树单元ctu,ctu又可以进一步划分成多个编码单元cu。每一个cu可以基于当前帧或其他帧的至少一个相同cu数据进行残差预编码。一个条带内部可以实现独立的编解码的多个编码单元。一般而言,一个有效的目标会分布在不同的条带之内。或者从另外一个角度描述,如图3所示,一个条带内的像素往往无法构成一个对人视觉有意义的目标。
24.假设在两个帧之间,如图3所示,建筑保持静止不变。那么帧间存在大量的冗余信息,这种冗余也体现在条带内部的编码单元中。那么,如图1所示的编码器通过帧间预测和变换器能够压缩大量的冗余信息,但是图1的编码器的算法只能识别编码单元内的像素之间的关联性,而无法识别当前有效目标是一个建筑背景,如图像的语义特征,因此其对应的图像特征存在时间关联性。
25.然而,基于深度模型的特征提取模型可以将图像的语义信息提取出来,并通过一个重建模型对图像进行恢复。在这方面存在大量成熟的现有技术,例如被广泛研究的自编码器就使用了这种原理,这意味着深度模型能够对图像中的深层次特征进行提取,并根据深层次的特征重建图像。类似的,假设一个深度模型能够通过图像的深层的语义实现帧间的预测,则意味着可以在更大的范围内实现更高的压缩比。
26.图4中示出了数字视网膜原理的示意图。
27.如图4所示,其中前端设备同时具有视频压缩和用于视频特征提取的深度模型。由于如图4所示的后端可以通过传输信道向前端部署不同的模型,因此可以理解前端设备拥有自适应获取任何深度模型的能力。
28.基于此,本技术主要包括通过使用深度模型对图像中的特定区域进行压缩,再通过深度重建模型对压缩后的数据进行重建。
29.本技术中所提到的深度预测模型即:在编码端,基于以上现有的深度模型进行编码预测的模型。相应的,在解码端存在基于现有的深度模型进行解码的深度重建模型。深度预测模型与深度重建模型的网络结构与深度模型是一致的。
30.在一个区域内,相比基于块和运动补偿编码方法获得更高的有效压缩比时,本技术使用深度模型对该区域进行编码,并在编码数据中记录区域编号和模式指示信息,模式指示信息包括当前区域使用基于深度模型的编码方式和对应的解码模型。可选的,也可选择使用基于块和运动补偿的方法对该区域进行编码。
31.在解码侧,通过模式指示信息识别一个特定区域是基于运动补偿的方式还是基于深度重建模型的方式进行解码。并根据指示信息进行解码。
32.本技术的编码区域,即选定的特定区域一般尺寸大于编码树单元最大尺寸。
33.具体的,本技术的视频编码方案中,获取输入图像,基于块进行帧间/帧内预测,得到第一编码预测数据;根据输入图像,基于深度预测模型进行帧间/帧内预测,得到第二编码预测数据;当第二编码预测数据量小于第一编码数据量时,根据第二编码预测数据进行编码。本技术自适应选择编码压缩方式,同时利用深度模型的特征提取能力,进一步对图像中的冗
余信息进行压缩,大大提升了编码性以及实现了更高的压缩比率。
34.为了使本技术实施例中的技术方案及优点更加清楚明白,以下结合附图对本技术的示例性实施例进行进一步详细的说明,显然,所描述的实施例仅是本技术的一部分实施例,而不是所有实施例的穷举。需要说明的是,在不冲突的情况下,本技术中的实施例及实施例中的特征可以相互组合。
35.实施例1图5中示出了根据本技术实施例的一种基于数字视网膜的视频编码方法的步骤流程图。
36.如图5所示,本实施例的视频编码方法,具体包括以下步骤:s101:获取输入图像,基于块进行帧间/帧内预测,得到第一编码预测数据。
37.具体的,本技术在获取输入图像后,还包括选定编码区域。因此,基于块进行帧间/帧内预测,得到该编码区域的第一编码预测数据。
38.s102:根据输入图像,基于深度预测模型进行帧间/帧内预测,得到第二编码预测数据。
39.具体的,根据输入图像以及选定的编码区域,基于深度预测模型进行帧间/帧内预测,得到编码区域的第二编码预测数据。
40.其中,深度预测模型即基于现有的深度模型进行编码预测的模型。
41.s103:当第二编码预测数据量小于第一编码数据量时,根据第二编码预测数据进行编码。
42.具体的,当选定的该编码区域的第二编码预测数据量小于第一编码数据量时,将第二编码预测数据作为编码区域的编码数据进行编码;其中,编码数据还包括编码区域编号、编码方式以及对应的解码模型。
43.对应的,还包括:当编码区域的第二编码预测数据量大于或等于第一编码数据量时,将第一编码预测数据作为编码区域的编码数据进行编码;其中,编码数据还包括编码区域编号以及编码方式。
44.图6中示出了根据本技术实施例的一种视频编码原理示意图。
45.如图6所示,编码方式判决器将根据当前编码区域通过s101和s102两种方法生成的数据量的大小来选择编码方式。如果使用块编码的方式,也就是图6上半部的通路编码后(包括熵编码)数据量较小,则选择端口1的信号输入至熵编码器。如果使用深度预测模型生成的编码数据量(包括熵编码器)较小,则选择端口2的信号输入至熵编码器。由于量化后的数据本身就与经过熵编码器压缩后的数据量一一对应,因此判决器能通过输入的信号直接完成判决。
46.如图6所示,s101具体包括以下步骤:首先,将输入图像输入帧间/帧内预测模块,得到第一帧间/帧内预测值;其次,根据帧间/帧内预测值以及运动补偿值,得到第一残差值;最后,第一残差值通过变换器和量化器后得到第一编码预测数据,即要输入编码方式判决器的数据。
47.如图6所示,s102具体包括以下步骤:首先,将图像输入深度预测模型,得到第二帧间/帧内预测值;
然后,通过残差计算模块,根据第二帧间/帧内预测值得到第二残差值;最后,第二残差值通过量化器后得到第二编码预测数据。
48.图7中示出了根据本技术另一实施例的一种视频编码原理示意图。
49.如图7所示,基于深度预测模型的残差值也被输入至一个变换器,再输入至量化器。变换器可以采用ctu最大的尺寸64*64,并且使用dct变换器。
50.相应的,即第二残差值通过变换器和量化器后得到第二编码预测数据。
51.图8中示出了根据本技术实施例中实际图像编码示意图。
52.如图8所示,在实际图像编码过程中的一种示例,假设当前帧为一个双向预测帧“b帧”,并且图像在当前gop中保持静止,此时传统编码中一个条带内部被划分成多个ctu,每个ctu数据单元包括两个运动适量数据(mv1,mv2)、残差数据r、参考帧ref1、以及参考帧ref2。
53.通过深度预测模型由于识别了目标区域中的目标,并实现了精准的预测,所以只有量化的残差数据,因此预测的较为精准,则残差数据为全0的序列。相比,传统只基于块编码的方式即使ctu中的残差数据也为全0,但是mv和ref数据均不为0,因此经过熵编码后使用块编码的数据量远远大于基于深度预测模型的编码方式。
54.此时,根据本技术,编码方式判决模块选择了基于深度预测模型的编码方式,使得整体图像压缩率高于了传统只基于块编码的方式。
55.图9中示出了根据本技术实施例一个基于深度预测模型的示意图。
56.如图9所示,在输入端输入多个图像帧,经过深度模型运算后输出预测帧。预测帧与实际采样图像之间的误差经过样本数据的训练逐渐变小。对模型的训练有多种方法,可以基于端到端的训练方式,也可以基于光流法的预测。
57.然而,这里一个较为关键的问题在于,输入图像序列和输出图像序列之间的时间关系。
58.在一个现有技术中基于深度模型的插帧算法中,输出图像的时间在输入图像之间,例如输入图像为t1和t2,则输出图像的时间在(t1,t2)内的某个固定时间节点。然而本技术中,预测模型的目的不是输出某个固定时间节点的图像帧,而是用于产生一个与当前编码图像误差最小的预测图像,这个预测图像的最佳输入帧无法事前得知。
59.因此,本技术另一具体实施方式中,深度预测模型以使用基于块进行帧间/帧内预测的“i帧”作为输入,输出至少一个“i帧”附近的图像帧作为对应帧的预测值。
60.由于基于块的视频编码技术对预测长度有限制,例如预测长度不超过5,也就是任何一个数据帧只从距离不超过5的数据帧内进行预测。因此,使得深度预测模型只需要获得相同预测距离内的预测能力即可,而不是需要对输入任意距离的图像帧都可以实现对当前帧的预测。在另外一种实施方式中,深度预测模型的输入是“i”帧和“p”帧对应图像,深度预测模型只输出双向预测图“b”帧对应的图像。
61.图10中示出了根据本技术另一实施例的一种视频编码原理示意图。
62.如图10所示,即,将第一帧间/帧内预测值还输入至深度预测模型,相应的,根据输入图像,基于深度预测模型进行帧间/帧内预测,得到第二编码预测数据,具体包括:根据输入图像以及第一帧间/帧内预测值,基于深度预测模型进行帧间/帧内预测,得到第二编码预测数据。
63.图11中示出了根据图10的视频编码方式进行实际图像处理过程的示意图。
64.如图11所示,帧内/帧间预测模块对当前帧的判决输入至深度预测模型,用于模型来判断模型的输入帧和输出帧。
65.其它实施方式中,由于深度预测模型的准确率取决于其训练样本,因此存在不同的模型对不同的图像帧具有不同的预测结果。因此,深度预测模型包括多个模型。在同一数据帧,残差计算模块计算针对多个模型的残差值,并根据残差值选取残差值最小的作为预测模型,并在数据流中指示所选模型的编号。
66.具体的,即:将图像的同一数据帧同时输入深度预测模型的多个模型,得到多个第二帧间/帧内预测值;根据多个第二帧间/帧内预测值得到多个第二残差值;选取多个第二残差值中最小的第二残差值以及对应的模型。
67.在这种实施方式中,进一步通过使用更多的计算,来获取更高的压缩比。理论上对于任意一个图像帧,都存在一个最优的预测模型,该模型能够通过其他数据帧预测出与当前帧一致的结果,也就是最优预测模型生成残差值为零。如果在解码端也存储了该模型,则可以使用最少的比特用于指示所选的模型,即可实现整个图像帧的编码和解码。
68.图12中示出了对应本技术视频编码的解码原理示意图。
69.如图12所示,解码侧其流程与编码端相同。经过熵解码器后,解码方式模块将决定当前帧所使用的解码方式。具体的,通过编码数据中记录的区域编号、基于深度模型的编码方式和对应的解码模型等信息,判断当前帧的编解码方式。
70.如果判断当前帧为基于块编码的帧,则经过逆量化器和逆变换器后,基于帧内或帧间预测将残差值与预测值相加,得到解码输出。如果解码方式模块决定当前帧所使用的解码方式是基于深度预测模型,则残差值经过逆量化器和逆变换器后,与深度模型输出的预测帧相加,得到解码输出。
71.采用本技术实施例中的基于数字视网膜的视频编码方法,获取输入图像,基于块进行帧间/帧内预测,得到第一编码预测数据;根据输入图像,基于深度预测模型进行帧间/帧内预测,得到第二编码预测数据;当第二编码预测数据量小于第一编码数据量时,根据第二编码预测数据进行编码。本技术自适应选择编码压缩方式,同时利用深度模型的特征提取能力,进一步对图像中的冗余信息进行压缩,大大提升了编码性以及实现了更高的压缩比率。
72.实施例2本实施例提供了一种视频编码系统,对于本实施例的视频编码系统中未披露的细节,请参照其它实施例中的视频编码方法的具体实施内容。
73.图13示出了根据本技术实施例的一种视频编码系统的结构示意图。
74.如图13所示,本实施例提供的一种视频编码系统,具体包括第一编码预测单元10、第二编码预测单元20以及编码方式判决器30。
75.具体的,第一编码预测单元10:用于获取输入图像,基于块进行帧间/帧内预测,得到第一编码预测数据。
76.具体的,本技术在获取输入图像后,还包括选定编码区域。因此,基于块进行帧间/
帧内预测,得到该编码区域的第一编码预测数据。
77.第二编码预测单元20:用于根据输入图像,基于深度预测模型进行帧间/帧内预测,得到第二编码预测数据。
78.具体的,根据输入图像以及选定的编码区域,基于深度预测模型进行帧间/帧内预测,得到编码区域的第二编码预测数据。
79.编码方式判决器30:用于当第二编码预测数据量小于第一编码数据量时,根据第二编码预测数据进行编码。
80.具体的,当选定的该编码区域的第二编码预测数据量小于第一编码数据量时,将第二编码预测数据作为编码区域的编码数据进行编码;其中,编码数据还包括编码区域编号、编码方式以及对应的解码模型。
81.对应的,还包括:当编码区域的第二编码预测数据量大于或等于第一编码数据量时,将第一编码预测数据作为编码区域的编码数据进行编码;其中,编码数据还包括编码区域编号以及编码方式。
82.采用本技术实施例中的基于数字视网膜的视频编码系统,获取输入图像,第一编码预测单元10基于块进行帧间/帧内预测,得到第一编码预测数据;第二编码预测单元20根据输入图像,基于深度预测模型进行帧间/帧内预测,得到第二编码预测数据;编码方式判决器30当第二编码预测数据量小于第一编码数据量时,根据第二编码预测数据进行编码。本技术自适应选择编码压缩方式,同时利用深度模型的特征提取能力,进一步对图像中的冗余信息进行压缩,大大提升了编码性以及实现了更高的压缩比率。
83.实施例3本实施例提供了一种视频编码设备,对于本实施例的视频编码设备中未披露的细节,请参照其它实施例中的视频编码方法或系统具体的实施内容。
84.图14中示出了根据本技术实施例的视频编码设备400的结构示意图。
85.如图14所示,视频编码设备400,包括:存储器402:用于存储可执行指令;以及处理器401:用于与存储器402连接以执行可执行指令从而完成运动矢量预测方法。
86.本领域技术人员可以理解,示意图14仅仅是视频编码设备400的示例,并不构成对视频编码设备400的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如视频编码设备400还可以包括输入输出设备、网络接入设备、总线等。
87.所称处理器401(central processing unit,cpu),还可以是其他通用处理器、数字信号处理器(digital signal processor,dsp)、专用集成电路(application specific integrated circuit,asic)、现场可编程门阵列(field-programmable gate array,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器401也可以是任何常规的处理器等,处理器401是视频编码设备400的控制中心,利用各种接口和线路连接整个视频编码设备400的各个部分。
88.存储器402可用于存储计算机可读指令,处理器401通过运行或执行存储在存储器402内的计算机可读指令或模块,以及调用存储在存储器402内的数据,实现视频编码设备400的各种功能。存储器402可主要包括存储程序区和存储数据区,其中,存储程序区可存储
操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据视频编码设备400使用所创建的数据等。此外,存储器402可以包括硬盘、内存、插接式硬盘,智能存储卡(smart media card, smc),安全数字(secure digital, sd)卡,闪存卡(flash card)、至少一个磁盘存储器件、闪存器件、只读存储器(read-only memory,rom)、随机存取存储器(random access memory,ram)或其他非易失性/易失性存储器件。
89.视频编码设备400集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机可读指令来指令相关的硬件来完成,的计算机可读指令可存储于一计算机可读存储介质中,该计算机可读指令在被处理器执行时,可实现上述各个方法实施例的步骤。
90.实施例4本实施例提供了一种计算机可读存储介质,其上存储有计算机程序;计算机程序被处理器执行以实现其他实施例中的视频编码方法。
91.本技术实施例中的视频编码系统、设备及计算机存储介质,获取输入图像,基于块进行帧间/帧内预测,得到第一编码预测数据;根据输入图像,基于深度预测模型进行帧间/帧内预测,得到第二编码预测数据;当第二编码预测数据量小于第一编码数据量时,根据第二编码预测数据进行编码。本技术自适应选择编码压缩方式,同时利用深度模型的特征提取能力,进一步对图像中的冗余信息进行压缩,大大提升了编码性以及实现了更高的压缩比率。
92.本领域内的技术人员应明白,本技术的实施例可提供为方法、系统、或计算机程序产品。因此,本技术可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本技术可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
93.本技术是参照根据本技术实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
94.这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
95.这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
96.在本发明使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本发明。在本发明和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
97.应当理解,尽管在本发明可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本发明范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在
……
时”或“当
……
时”或“响应于确定”。
98.尽管已描述了本技术的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本技术范围的所有变更和修改。
99.显然,本领域的技术人员可以对本技术进行各种改动和变型而不脱离本技术的精神和范围。这样,倘若本技术的这些修改和变型属于本技术权利要求及其等同技术的范围之内,则本技术也意图包含这些改动和变型在内。

技术特征:
1.一种基于数字视网膜的视频编码方法,其特征在于,包括以下步骤:获取输入图像,基于块进行帧间/帧内预测,得到第一编码预测数据;根据所述输入图像,通过基于深度模型的深度预测模型进行帧间/帧内预测,得到第二编码预测数据;当所述第二编码预测数据量小于第一编码数据量时,根据所述第二编码预测数据进行编码。2.根据权利要求1所述的视频编码方法,其特征在于,所述输入图像后,还包括选定编码区域,所述编码区域的视频编码方法具体包括:基于块进行帧间/帧内预测,得到所述编码区域的第一编码预测数据;基于深度预测模型进行帧间/帧内预测,得到所述编码区域的第二编码预测数据;当所述编码区域的第二编码预测数据量小于第一编码数据量时,将所述第二编码预测数据作为所述编码区域的编码数据进行编码;其中,所述编码数据还包括所述编码区域编号、编码方式以及对应的解码模型。3.根据权利要求2所述的视频编码方法,其特征在于,还包括:当所述编码区域的第二编码预测数据量大于或等于第一编码数据量时,将所述第一编码预测数据作为所述编码区域的编码数据进行编码;其中,所述编码数据还包括所述编码区域编号以及编码方式。4.根据权利要求1所述的视频编码方法,其特征在于,所述获取输入图像,基于块进行帧间/帧内预测,得到第一编码预测数据,具体包括:将所述输入图像输入帧间/帧内预测模块,得到第一帧间/帧内预测值;根据所述帧间/帧内预测值以及运动补偿值,得到第一残差值;所述第一残差值通过变换器和量化器后得到第一编码预测数据。5.根据权利要求4所述的视频编码方法,其特征在于,所述第一帧间/帧内预测值还输入至所述深度预测模型,相应的,所述根据所述输入图像,基于深度预测模型进行帧间/帧内预测,得到第二编码预测数据,具体包括:根据所述输入图像以及第一帧间/帧内预测值,基于深度预测模型进行帧间/帧内预测,得到第二编码预测数据。6.根据权利要求1所述的视频编码方法,其特征在于,所述根据所述输入图像,通过基于深度模型的深度预测模型进行帧间/帧内预测,得到第二编码预测数据,具体包括:将所述图像输入深度预测模型,得到第二帧间/帧内预测值;根据所述第二帧间/帧内预测值得到第二残差值;所述第二残差值通过量化器后得到第二编码预测数据。7.根据权利要求6所述的视频编码方法,其特征在于,所述第二残差值通过变换器和量化器后得到第二编码预测数据。8.据权利要求6所述的视频编码方法,其特征在于,所述深度预测模型包括多个模型,所述根据所述输入图像,基于深度预测模型进行帧间/帧内预测,得到第二编码预测数据,还包括:将所述图像的同一数据帧同时输入深度预测模型的多个模型,得到多个第二帧间/帧内预测值;
根据所述多个第二帧间/帧内预测值得到多个第二残差值;选取所述多个第二残差值中最小的第二残差值以及对应的模型。9.一种基于数字视网膜的视频编码系统,其特征在于,具体包括:第一编码预测单元:用于获取输入图像,基于块进行帧间/帧内预测,得到第一编码预测数据;第二编码预测单元:用于根据所述输入图像,基于深度预测模型进行帧间/帧内预测,得到第二编码预测数据;编码方式判决器:用于当所述第二编码预测数据量小于第一编码数据量时,根据所述第二编码预测数据进行编码。10.一种计算机可读存储介质,其特征在于,其上存储有计算机程序;所述计算机程序被处理器执行以实现如权利要求1-8任一项所述的基于数字视网膜的视频编码方法。

技术总结
本申请提供了一种基于数字视网膜的视频编码方法、系统及存储介质,获取输入图像,基于块进行帧间/帧内预测,得到第一编码预测数据;根据输入图像,基于深度预测模型进行帧间/帧内预测,得到第二编码预测数据;当第二编码预测数据量小于第一编码数据量时,根据第二编码预测数据进行编码。本申请自适应选择编码压缩方式,同时利用深度模型的特征提取能力,进一步对图像中的冗余信息进行压缩,大大提升了编码性以及实现了更高的压缩比率。码性以及实现了更高的压缩比率。码性以及实现了更高的压缩比率。


技术研发人员:张羿 牛梅梅 向国庆 滕波 洪一帆 焦立欣 陆嘉瑶
受保护的技术使用者:浙江智慧视频安防创新中心有限公司
技术研发日:2022.02.07
技术公布日:2022/3/8

最新回复(0)