全文总字数:6336字
1. 研究目的与意义(文献综述)
本次课题的主要是通过深度学习来完成图像的风格迁移任务,尽量生成拥有自然纹理的图像。所谓风格迁移,是指将学习到的学习到的目标图像的风格应用于源图像,使得源图像保留内容的同时具有目标图像的风格。在神经网络的概念发展兴起起来之前,图像风格迁移对于研究员来说简直就是噩梦,因为图像的艺术风格即使是在艺术界也没有明确的定义,每个人都有每个人的见解,这就导致很难将这种说不清的艺术风格变成一个明确的模型。在神经网络之前,图像风格迁移的程序的共同思路就是先分析某一种风格的图像,人工为其建立数学或统计模型,再改变要做迁移的图像让他能更好的符合建立的模型,这样做的最大缺点就是:一个程序基本只能做某一种风格或者某一个场景的迁移。这也导致了基于传统风格迁移研究的实际应用非常有限。在2012年到2014年的时候,深度学习和神经网络的理论和实践逐渐发展了起来,风格迁移的研究员们注意到了深度学习可以用来训练物体识别的模型。于是,受这些研究的启发,研究员们开始结合神经网络来做风格迁移,gatys等人[1]开创性地提出了一种基于卷积神经网络的图像风格迁移,并取得了非常可观的效果。通过训练神经网络来提取出图像的风格特征这一方法不仅具有不错的准确度,相较于之前人工建立模型的方法还具有更广阔的泛用性。但由于研究时间尚短,虽然基于深度学习的图像风格的算法已经取得了显著的效果,但仍存在一些尚待解决的问题。因此,这个领域依然具有很大的研究价值。
在详细阅读了邹秀芳[11]、陈淑環[12]等人撰写的相关研究的综述以后,我了解到目前主要的基于深度学习的图像风格迁移方法包括了基于图像迭代和基于模型迭代两类。第一类是直接在白噪声图像上进行优化迭代实现风格迁移,其优化目标是白噪声图像;第二类是迭代地优化神经网络模型,以网络前馈的方式实现快速风格迁移,其优化目标是神经网络模型。
对于第一类方法,最具代表性的方法又可以分为基于最大均值差异、基于马尔可夫随机场和基于深度图像类比三类。
2. 研究的基本内容与方案
本次课题的基本内容可以大致分为以下三个部分,分别是数据处理、建模和实验设置。
数据处理是本课题的一个重要环节,因为本次课题的目的是要训练出一个用以完成风格迁移的神经网络并将其和现今的其他风格迁移技术的比较,而如果训练样本过少,很容易导致网络出现过拟合现象(即网络过度拟合了训练数据集却忽略了数据的共性,导致在实际任务中表现得很差劲)。而为了避免这个现象,我们可以对图片数据预先进行处理,采取随机裁剪、随机缩放、随机旋转等措施,人为地“创造”一些数据,这些由我们“创造”的数据保留了原图像的主要内容,只是图片的大小、方向与原图片不同。这样就可以很好地扩大训练数据的数量,从而有效地避免过拟合现象,使得训练出来的网络更加泛用。
本课题的重点就是建模并对这个模型进行训练了,建模所使用的技术路线在下方详细介绍,这里就先省略。我们要建造的模型是一个生成对抗网络,生成对抗网络的基本框架由一个生成模型g和一个判别模型d组成,g和d实际上都是多层的卷积神经网络,这两个模型一同构成一个大型网络。生成器g的每个输入参数都代表着一张图片,输出参数也代表这一张图片,训练就是要使得g生成的图片具有风格来源图片的风格且保留原图片的内容。判别器d的每个输入参数也代表着一张图片,输出参数则是一个数值,相当于给输入的图片打的“分数”,训练就是要使得判别器给具有y域图片风格特征的输入图片打高分,给不具有y域图片风格特征的输入图片打低分。整个训练过程就是g和d的一个对抗过程,g要使得自己生成的图片能经过d的判别能获得高分,而d则要尽可能识别出哪些输入图片是g生成的,从而给出低分。因此,我们在训练过程中,生成器和判别器采取交替训练,首先是固定住生成器g的参数不变,训练迭代1次判别器d,然后再训练迭代一次生成器g,不断往复。
3. 研究计划与安排
2020/2/28—2020/3/15:详细分析课题的需求,查阅相关文献后参考其提出具体算法;
2020/3/16—2020/3/25:分析自己提出的算法,研究其可行性和性能,与现存算法进行比较,尝试进行优化;
2020/3/26--2020/4/26:用代码实现提出的算法,验证其是否能实现预期的功能,是否达到预期的效果,若不能,尝试修改;
4. 参考文献(12篇以上)
[1] gatys l a, ecker a s, bethge m. a neural algorithm ofartistic style [j].arxiv preprint arxiv: 1508. 06576, 2015
[2] liao jing, yao yuan, yuan lu, et al. visual attributetransfer through deep image analogy [j]. arxiv preprint arxiv: 1705. 01088,2017
[3] johnson j, alahi a, li feifei. perceptuallosses for real-time style transfer and super-resolution [c]// proc of europeanconference on computer vision. [s. i. ] : springer press, 2016
