全文总字数:4810字
1. 研究目的与意义(文献综述)
图像和视频压缩技术在很大程度上减小了图像和视频的存储容量和传输带宽,促进了图像和视频业务的广泛应用。然而,压缩在本质上会引入不需要的复杂工件,这将严重降低用户体验,所有这些伪影不仅会降低感知视觉质量,而且还会对以压缩图像为输入的各种低级图像处理例程产生不利影响,例如对比度增强、超分辨率和边缘检测。因此如何减少伪影也是视频编码的重要研究问题,并且在文献中已进行了广泛研究。
在最先进的视频编码标准 hevc 中,有两种后处理技术用于伪影消除,即去块和样本自适应滤波器(sao)。去块和 sao 之间存在着两方面的差异。 首先,去块是专门为减少块效应而设计的,但 sao是为一般的压缩效应而设计的。 其次,去块不需要任何额外的bit位,但 sao 需要传输一些额外的位来发送信令。 这两种技术都有助于提高重建视频的视觉质量,也有助于提高客观质量,并等效地实现比特率节省。
最近,卷积神经网络(cnn)在高级计算机视觉任务中取得了巨大的成功,比如图像分类和目标检测分类。受到这一成功的启发,还提出利用 cnn 进行低层计算机视觉任务,如超分辨率和边缘检测。
2. 研究的基本内容与方案
2.1基本内容和目标
目前深度后处理网络的训练过程将原始信号作为训练标签,其性能提升往往伴随着网络复杂度明显提高。在视频编码中,针对复杂网络对解码复杂度不友好、不同码率尤其是低码率下的重建信号和原始信号差异大使难以精准建模的问题,我们希望基于知识蒸馏的思想,基于预训练的复杂网络,设计轻量级深度后处理网络结构及训练方法,通过减小网络的搜索区间来提高训练和建模效率,使网络复杂度明显降低的同时尽可能保证滤波性能。本论文需要完成的内容及要求如下:
1) 了解视频编码中基于学习的深度后处理技术;
2) 熟悉深度学习框架Pytorch并能基于此搭建和训练网络;
3) 设计基于知识蒸馏的深度后处理框架及训练方法
4) 将后处理网络集成到编码参考软件HEVC中,测试RD性能;
2.2拟采用的技术方案及措施
本文把数据集DIV2K从RGB图像转换成YUV4:2:0格式的视频序列,通过M5129基于残差网络的神经网络滤波得到的序列,作为数据集的真实标签。关闭ALF、SAO、Deblock之后,在AI配置下使用HPM对数据集进行编码,量化步长从27到50,涵盖27,32,38,45四个测试QP点。
接下来通过MATLAB软件将序列转化为.H5格式数据,从而构造出属于自己的数据集, 再分别将关闭ALF、SAO、Deblock之后,在AI配置下使用HPM对数据集进行编码得到的数据通过学生模型和老师模型。知识蒸馏总共有两步,第一步是训练教师网络;第二步是在高温T下,蒸馏教师网络的知识到学生网络上来。这时的损失函数就是:
第一个目标函数是与软目标的交叉熵,该交叉熵是使用蒸馏模型的softmax中的相同高温计算的,该高温与从繁琐模型生成软目标的温度相同。第二个目标函数是带有正确标签的交叉熵。整个过程的流程图如图2.1所示。
图2.1基于知识蒸馏的环路后处理设计与研究流程框图
3. 研究计划与安排
1)第1-2周:完成题目调研和开题报告撰写。完成参考文献的阅读并收集相关资料,完成文献综述。
2)第3-5周:确认并复现当前性能较优的复杂后处理网络结构;准备训练数据;基于该结构训练出基线网络。
3)第6-9周:结合知识蒸馏的思想,设计轻量级后处理网络结构及训练方法;完成网络训练。
4. 参考文献(12篇以上)
[1] y. dai, d. liu, andf. wu, “a convolutional neural network approach for post-processing in hevcintra coding,” in mmm. springer,2017, pp. 28–39.
[2] x. song, j. yao, l.zhou, l. wang, x. wu, d. xie, and s. pu, “a practical convolutional neuralnetwork as loop filter for intra frame,” in icip. ieee, 2018, pp. 1133–1137.
[3] c. jia, s. wang, x.zhang, s. wang, j. liu, s. pu, and s. ma, “content-aware convolutional neuralnetwork for in-loop filtering in high efficiency video coding,” ieeetransactions on image processing, doi: 10.1109/tip.2019.2896489, 2019.
