基于感知损失网络的图像风格迁移研究外文翻译资料-开题报告网

本科生毕业设计（论文）外文资料译文

（ 2020届）

论文题目	基于感知损失网络的图像风格迁移研究

外文资料译文规范说明

一、译文文本要求

1．外文译文不少于3000汉字；

2．外文译文本文格式参照论文正文规范（标题、字体、字号、图表、原文信息等）；

3．外文原文资料信息列文末，对应于论文正文的参考文献部分，标题用“外文原文资料信息”，内容包括：

1）外文原文作者；

2）书名或论文题目；

3）外文原文来源：

□出版社或刊物名称、出版时间或刊号、译文部分所在页码

□网页地址

二、外文原文资料（电子文本或数字化后的图片）：

1．外文原文不少于10000印刷字符（图表等除外）；

2．外文原文若是纸质的请数字化（图片）后粘贴于译文后的原文资料处，但装订时请用纸质原文复印件附于译文后。

指导教师意见：

指导教师签名：年月日

外文资料译文：

利用感知损失网络实现实时图像的风格转换与超分辨率重建

关键词：风格转换，深度学习

介绍

许多有关图像处理的经典问题都可以视为图像转换任务，即一个系统接收输入图像，然后将其转换成输出图像。例如降噪、超分辨率重建以及图像着色，这些例子的输入都是一张退化的图像（噪声，低分辨率或者灰度图像），输出是一张高质量的彩色图像。与计算机视觉有关的图像处理例子有：图像的语义分割以及深度估计，它们的输入是一张彩色图像，输出则是对场景或语义进行编码后的图像。

解决图像转换任务的一个方法是采用有监督的方式训练前馈卷积神经网络，利用逐像素损失函数来衡量两张图像差异。例如：Dong等人使用这种方法进行超分辨率处理[1]，Cheng等人使用这种方法进行着色处理[2]，Long等人使用这种方法进行分割[3]，Eigen等人使用这种方法进行图像表面与深度估计[4,5]。因为只需要通过已训练好的网络做一次前馈，所以他们都得到了非常高效的测试结果。

使用逐像素损失的方法的不足之处在于无法捕获两张图像之间的感知差异。例如，两张相同的图像彼此之间只有1像素偏移的图像，尽管它们的感知层面是相似的，但它们在逐像素损失函数中的测量值不同。

图1：风格转换的实例结果。在风格转换实验中，我们的实现和Gatys等人[10]的实现结果相似，但达到三个数量级的提速。

最近的研究表明，利用感知损失网络可以生成高质量的图像，这种方法不是基于逐像素的差异，而是从预训练好的感知损失网络中提取高级特征代表图像之间的差异。通过最小化损失函数生成高质量的图像。该方法已应用于Mahendran等人的特征倒置[6]，Simonyan等人[7]和Yosinski等人的特征可视化[8]，以及Gatys等人的纹理合成和样式转换[9,10]。他们的实验可以产生高质量的图像，但速度很慢，需要漫长的迭代优化过程。

本篇论文结合两种方法的优点，我们为图像转换任务训练前馈转换网络，没有采用仅依赖于低级像素信息的逐像素求差，构造损失函数，而是使用从预训练好的损失网络中提取高级特征的感知损失函数，来训练我们的网络。在训练过程中，我们发现感知损失函数在衡量目标图像与原始图像相似性方面优于逐像素损失；在测试过程中，前馈转换网络可以做到实时生成目标图像。

风格转换实验的不足之处在于，没有唯一正确的输出。实验的成功的是建立在对输入图像进行语义理解的基础上。尽管颜色和纹理发生了巨大变化，输出的图像必须在语义上与输入图片保持相似。原则上，为风格转换任务训练出的大容量神经网络可以隐式地学习相关语义的推理；然而在实践中，我们不需要从头开始学习，使用感知损失网络可以使语义信息从损失网络转移到转换网络中。我们训练前馈网络去解决优化的问题[10]；不论是从质量上还是目标函数值来看，我们的结果都与[10]中结果十分相近，但达到三个数量级的提升。

相关工作

前馈图像转换：最近几年，大量的图像转换任务采用的是通过逐像素损失函数来训练深度卷积网络的方法。

语义分割方法[3,5,12,13,14,15]通过在输入图像上以完全卷积的方式运行网络，利用逐像素分类损失函数训练，生成密集的场景标签。[15]通过将CRF推断作为与网络其余部分联合训练的递归层而超越逐像素损失。我们的前馈转换网络结构受到了[3]和[14]的启发，让输入图像在网络中向下采样，减少特征映射的空间范围，然后再在网络中做上采样，生成最终输出图像。

深度估计[5,4,16]和表面法向量估计[5,17]的方法相似之处在于，它们利用由逐像素回归[4, 5]或分类[17]的损失函数训练的前馈卷积网络，将彩色输入图像转化成有几何意义的输出图像。一些方法通过惩罚图像的梯度[5]或者使用CRF损失层[16]来增强输出图像的局部一致性，从而跨越逐像素损失。[2]利用逐像素损失函数训练前馈模型，给灰度图像上色。

感知优化：许多论文使用优化的方法生成图像，根据从卷积网络中提取的高层特征，生成感知图像。生成的图像可以用于最大化分类预测的分数[7, 8]，或者是为了理解训练网络中函数编码的个体特征[8]。相似的优化技术同样可以用在生成高置信度的欺骗图像[18, 19]。

Mahendran与Vedaldi[6]通过最小化特征重建损失来反转卷积网络中的特征，以便理解不同网络层保留的图像信息；类似的方法以前曾用于反转局部二值描述符[20]和hog特征[21]。

Dosovitskiy与Brox[22]与我们的工作最为密切相关，他们训练一个前馈神经网络去做反转卷积特征，快速逼近了由[6]提出的优化问题的解。然而，他们的前馈网络是由逐像素重建损失函数训练的，我们的网络则直接去优化[6]中的特征重建损失函数。

风格转换：Gatys等人[10]向我们展示的图像风格转换的实例，他们的方法是通过最小化[6]中的特征重建的损失函数和风格重建损失函数（两种损失函数都是基于一个预训练好的卷积网络中提取到的特征），将一张图像的内容与另一张图像的风格糅合在一起；相似的方法之前用于纹理合成中[9]。他们的方法能够生成高质量的结果，但是计算代价十分昂贵，因为每一次迭代优化都需要经历一次在已训练好的网络中向前和向后的传递。为了减少计算量的负担，我们训练一个前馈网络，快速逼近他们的优化问题的解。

方法

图2：系统概述。我们训练一个图像转换网络，将输入的图像转换为输出图像。我们利用预先训练好的损失网络进行图像的分类，定义用于衡量图像之间在内容上和风格上感知差异的感知损失函数。在训练过程中，损失网络保持不变。

如图2所示，我们的系统包含两部分：一个图像转换网络和一个损失网络Phi;；损失网络用于定义一系列损失函数；图像转换网络是一个由权重W参数化的深度残差网络，它利用的映射关系将输入图像x转换成输出图像。每一个损失函数计算一个标量值，用以衡量输出图像与目标图像的差异。图像转换网络由随机梯度下降方法进行训练，以最小化加权损失函数组合：

(1)

为了克服逐像素损失函数的缺点，并且使我们的损失函数更好地衡量图像之间感知和语义上的差异，我们从最近的通过优化迭代[6,7,8,9,10]生成图像的工作中获得灵感。这些方法的关键性认知在于，预训练好的用于图像分类的卷积神经网络已经学会了将我们想在损失函数中测量的感知与语义的信息编码。因此，为了定义我们的损失函数，我们使用预训练好的网络作为固定的损失网络，用于图像分类。然后利用同样是深度卷积神经网络的损失函数来训练我们的深度卷积转换网络。

损失网络用来定义特征重现损失函数和风格重现损失函数，它们用来衡量不同图像之间内容与风格的差异。对于每一张输入图像，都对应有一个内容目标和一个风格目标。内容目标作为输入图像，输出图像需要将风格结合到内容上；我们为每一种风格单独训练一个网络。

3.1 图像转换网络

我们的图像转换网络大致遵循Raford等人[42]提出的结构原则。我们不是用任何池化层，取而代之的是采用步幅卷积或微步幅卷积在网络中做向下与向上采样。我们的网络主体包含五个使用了[44]中残差块结构的残差块[43]。除输出层外，所有非残差卷积层后面都会跟着空间批量规范化层[45]和ReLU非线性层。输出层使用缩放Tanh函数来确保输出的每一个像素大小[0, 255]范围之内。除了第一层与最后一层卷积层使用内核，其余卷积层都使用的是33的内核。

输入与输出：输入与输出都是3256256形状的彩色图像。因为图像转换网络是全卷积的，在测试过程内，它们可以应用于任何分辨率的图像。

图3：与[6]相似，我们根据优化方法从预先训练好的VGG-16损失网络中训练出能够使多个网络层j中的特征重建损失函数最小的输出图像。当我们从高层次网络中进行图像重建时，图像内容和空间结构被保留下来，但是颜色、纹理以及确定的形状却并没有。

向下采样与向上采样：我们的网络采用两个步长为2的卷积层对输入图像向下采样，其后使用多个残差块，然后再使用两个步长为1/2的卷积层做向上采样。虽然这样做的缺点是要求输入和输出图像的大小相同，但是先向下采样再向上采样有以下好处：

第一个好处是降低计算的复杂性。举一个简单的例子，在的输入端上用C过滤器进行3times;3卷积，需要做乘法和加法。这与在形状为的输入端上用DC过滤器进行3times;3卷积的成本相同。因此，在向下采样后，我们可以在相同计算成本下使用一个更大的网络。

第二个好处是增大有效感受野的大小。高质量的风格转换需要以连贯的方式改变图像的大部分内容；因此我们的方法的优势在于，输出图像的每一个像素中都包含输入图像的大面积有效感受野。在不进行向下采样的情况下，每增加一个33卷积层，有效感受野的大小就能增加2。而每个3times;3卷积层在向下采样一个d因子后，有效感受野的大小反而增加了2D，在相同层数的情况下，有效感受野更大。

残差连接：He等人[43]使用残差连接训练非常深的网络用来做图像分类。他们证明了残差连接能够使得网络更容易学习识别功能；这对于图像转换网络来说，也是十分具有吸引力，因为在大多数情况下，输出图像和输入图像需要保持共享结构。因此在我们的网络结构体内也包含了一些残差块，每一个残差块包含两个33卷积层。我们使用的是[44]中设计的残差块，在附录中提到。

3.2 感知损失函数

我们定义两个感知损失函数用来衡量不同图像在高层次上感知和语义的差异。它们利用预先训练的损失网络进行图像分类，这意味着这些感知损失函数本身就是深卷积神经网络。在我们的实验中，是使用ImageNet数据集[47]，预训练好的16层VGG网络[46]。

图4：与[10]相似，我们根据优化方法从预先训练好的VGG-16损失网络中训练出能够使多个网络层j中的特征重建损失函数最小的输出图像。图像保留了风格特征却不保留空间结构。

特征重建损失函数：我们没有做输出图像与目标图像y的逐像素对比，而是比较由损失网络计算出的高级特征之间的相似度。在处理输入图像x时，让作为损失网络第j层的激活因子；如果第j层是卷积层，则为形状为的特征图谱。特征重建损失函数为特征表示之间的（平方化，归一化之后的）Euclidean距离：

(2)

如[6]所示和图3所示，在损失网络中找到的能使低层次网络的图像重建损失函数最小的图像，它和y在视觉上难以区分。当我们从网络层重建图像时，图像内容和全局空间结构得到保留，但颜色、纹理和形状细节却没有保留下来。我们使用特征重建损失来训练图像转换网络，我们让输出图像在感知上与目标图像y相似，但不会强制它们完全匹配。

风格重建损失函数：当输出图像在内容上偏离目标y时，特征重建损失函数将会惩罚输出图像。我们同样希望当输出图像在风格上偏离目标时，风格重建损失函数将会惩罚风格上的偏离：颜色、纹理，常见图案等。为了实现这样的效果， Gatys等人[9,10]提出以下风格重建损失函数。

由上，令形状为的特征图作为输入x在网络第j层的激活值，定义 Gram矩阵作为的大小的矩阵，该矩阵的元素来自于：

(3)

如果我们将视为每个点都在网格上的维特征并且将卷积层上每一个网格当作一个独立的样本，那么上式就与维特征的非中心协方差成比例。如此就可以

剩余内容已隐藏，支付完成后下载完整资料

英语原文共 18 页，剩余内容已隐藏，支付完成后下载完整资料

资料编号：[273400]，资料为PDF文档或Word文档，PDF文档可免费转换为Word

您需要先支付 30元 才能查看全部内容！立即支付

免费ai写开题、写任务书：免费Ai开题 | 免费Ai任务书 | 免费降AI率 | 免费降重复率 | 论文免费排版

注册

找回密码

基于感知损失网络的图像风格迁移研究外文翻译资料

您可能感兴趣的文章

最新文档

联系我们

登录

注册

找回密码

您可能感兴趣的文章

最新文档

联系我们