基于深度卷积网络的图像超分辨率外文翻译资料

 2023-03-14 18:50:39

基于深度卷积网络的图像超分辨率

摘要:本文提出了一种针对单图像超分辨率(SR)的深度学习方法。该方法直接学习低/高分辨率图像之间的端到端映射,这种映射被表示为一个深度卷积神经网络(CNN),它以低分辨率图像作为输入,以高分辨率图像作为输出。本文也进一步证明了传统的基于稀疏编码的SR方法也可以被看作是一个深度卷积网络,但该方法不同于传统的单独处理每个组件的方法,该方法联合优化了所有层。同时该深度卷积网络虽结构轻巧,但具有最先进的恢复质量,并且实现了快速实用的在线使用。

关键词:超分辨率,深度卷积神经网络

1 引言

单图像超分辨率(SR)是计算机视觉中的一个经典问题,当下最先进的针对单图像超分辨率的方法大多是基于实例的,这些方法要么是利用相同图像的内部相似性,要么是从外部低分辨率和高分辨率的样本对中学习映射函数。基于外部实例的方法倾向于提供丰富的样本,但会受到有效且紧凑的建模数据的挑战。

基于稀疏编码的方法是基于外部实例的图像超分辨率的代表性方法之一,这个方法涉及到其管道中的几个步骤。首先,从图像中密集提取重叠的斑块进行预处理(例如,减去平均值)。然后这些补丁将由一个低分辨率的字典进行编码,将稀疏系数传递到高分辨率字典中,重建高分辨率补丁。重建的重叠斑块被聚合(或平均)以产生输出。过去的SR方法特别关注学习和优化字典或者建模它们的替代方法。然而,管道中的其他步骤很少被优化或在一个统一的优化框架中被考虑。

在本文中,我们展示了上述管道等价于一个深度卷积神经网络(更多细节请见3.2)。

图1.所提出的超分辨率卷积神经网络(SCRNN)仅经过少量的训练迭代就超过了双边缘基线,并且在适度训练下优于基于稀疏编码的方法(SC)。通过更多的训练迭代,性能可以进一步提高。更多细节在4.1节(设置5数据集)。该方法提供了从低分辨率图像的视觉吸引力的重建。

事实上,我们直接考虑了一个卷积神经网络,它是一个在低分辨率和高分辨率图像之间的端到端映射。我们的方法与现有的基于外部示例的外部方法有根本的不同,因为我们的方法没有明确地学习用于建模补丁空间的字典或流形。这些都是通过隐藏层隐式地实现的。此外,斑块的提取和聚合也被表示为卷积层,因此参与了优化。在该方法中,整个SR管道完全是通过学习获得的,很少进行预/后处理。

我们将该模型命名为超分辨率卷积神经网络(SRCNN)1。拟议的SRCNN有几个吸引人的特性。首先,它的结构是有意设计的简单性,但与最先进的基于实例的方法相比,提供了优越的精度2。图1显示了对一个示例的比较。其次,通过中等数量的过滤器和图层,我们的方法即使在CPU上也能实现实际在线使用的快速速度。我们的方法比一系列基于示例的方法更快,因为它是完全前馈的,不需要解决任何在使用上的优化问题。

  1. 实验表明,当有更大的数据集可用时,该网络的恢复质量可以提高网络性能,被进一步改进,和/或使用了一个更大的模型。相反,更大的数据集/模型可能会给现有的基于实例的方法带来挑战。

总的来说,本方法的贡献主要体现在三个方面:

1.我们提出了一种用于图像超分辨率的卷积神经网络。该网络直接学习低分辨率和高分辨率图像之间的端到端映射,除了优化之外,很少进行预/后处理。

2.我们建立了基于深度学习的SR方法与传统的基于稀疏编码的SR方法之间的关系。这种关系为网络结构的设计提供了指导。

3.我们证明了深度学习在经典的超分辨率计算机视觉问题中是有用的,并且可以获得良好的质量和速度。

2 相关工作

图像超分辨率。一类最先进的SR方法,学习低/高分辨率补丁之间的映射。这些研究在如何学习一个紧凑的字典或流形空间来关联低/高分辨率的补丁,以及如何在这些空间中执行表示方案方面各不相同。在弗里曼等人的先驱工作中,字典直接表示为低分辨率/高分辨率补丁对,输入补丁在低分辨率空间中找到最近邻(NN),其相应的高分辨率补丁用于重建。Chang等引入了流形嵌入技术作为神经网络策略的替代。在Yang等人的工作中,上述神经网络通信发展到一个更复杂的稀疏编码公式。这种基于稀疏编码的方法及其一些改进的是目前最先进的SR方法之一。在这些方法中,补丁是优化的重点;补丁的提取和聚合步骤被认为是预/后处理,并单独处理。

卷积神经网络。卷积神经网络(CNN)可以追溯到几十年前的,最近显示出了爆炸性的流行,部分原因是它在图像分类方面的成功。几个因素的中心重要性在这个进展:(i)有效的培训实现在现代强大的图形处理器,(ii)的提议纠正线性单元(ReLU)使收敛更快而仍然呈现好质量,和(iii)容易获得大量的数据(如ImageNet)培训更大的模型。我们的方法也可以从这些进展中获益。

用于图像恢复的深度学习。使用深度学习技术进行图像恢复的研究较多。多层感知器(MLP),其所有层都是完全连接的(与卷积相比),应用于自然图像去噪和去模糊后去噪。与我们的工作更密切相关的是,卷积神经网络被应用于自然图像去噪和去除噪声模式(污垢/雨)。这些恢复问题或多或少是由去噪驱动的。相反,据我们所知,图像超分辨率问题并没有看到深度学习技术的使用。

3 用于超分辨率卷积的神经网络

3.1 概述

考虑一个低分辨率的图像。我们首先使用双边插值将其升级到所需的大小,这是我们执行的唯一的预处理3。将插值后的图像表示为Y。我们的目标是从Y中恢复一个与地面真实高分辨率图像X尽可能相似的图像F(Y)。为了便于表示,我们仍然称Y为“低分辨率”图像,尽管它的大小与x相同。我们希望学习一个映射F,它在概念上由三个操作组成:

1.补丁提取和表示:该操作从低分辨率图像Y中提取(重叠)补丁,并将每个补丁表示为一个高维向量。这些向量包括一组特征映射,其数量等于向量的维数。

2.非线性映射:该操作将每个高维向量非直线映射到另一个高维向量上。每个映射的向量在概念上都是一个高分辨率补丁的表示。这些向量由另一组特征映射组成。

3.重建:该操作将上述高分辨率的补丁表示进行聚合,生成最终的高分辨率图像。这张图像预计与地面真相X相似。

我们将证明所有这些操作都形成了一个卷积神经网络。图2描述了该网络的概述。接下来,我们将详细说明我们对每个操作的定义。

补丁程序的提取和表示。在图像恢复(如[1])中,一种流行的策略是密集提取斑块,然后用一组预先训练过的基础来表示它们,如PCA、DCT、Haar等。这相当于用一组滤波器对图像进行卷积,每个滤波器都是一个基础。在我们的公式中,我们将这些基的优化到网络的优化。在形式上,我们的第一层被表示为一个操作F1:

图2.给定一个低分辨率的图像Y,SRCNN的第一个卷积层提取了一组特征映射。第二层将这些特征非线性地映射到高分辨率的补丁表示。最后一层结合了空间邻域内的预测,生成最终的高分辨率图像F(Y)。

其中W1和B1分别表示过滤器和偏差。这里W1的大小是ctimes;f1times;f1times;n1,其中c是输入图像中的通道数,f1是滤波器的空间大小,n1是滤波器的数量。直观地说,W1对图像应用n1个卷积,每个卷积都有一个核大小ctimes;f1times;f1。输出由n个1个特征映射组成。b1是一个n1维的向量,其每个元素都与一个滤波器相关联。我们应用校正的线性单位(ReLU,max(0,x))[18]对滤波器响应4。

非线性映射。第一层为每个补丁提取一个n-1维的特征。在第二个操作中,我们将这些n1维向量映射到一个n2维向量中。这相当于应用n2个滤波器,它有一个平凡的空间支持1times;1。第二层的操作方式为:

这里W2的大小是n1times;1times;1times;n2,b2是n2维的。每个输出的n个二维向量在概念上都是一个将用于重建的高分辨率补丁的表示。

可以添加更多的卷积层(其空间支持度为1times;1)来增加非线性。但这可以显著增加模型的复杂性,因此需要更多的训练数据和时间。在本文中,我们选择在这个操作中使用单一的卷积层,因为它已经提供了惊人的质量。

图3.卷积神经网络中基于稀疏编码的方法的说明。

重构在传统的方法中,预测的重叠高分辨率补丁经常被平均,以产生最终的完整图像。平均可以被认为是一组特征映射上的一个预定义的过滤器(其中每个位置都是一个高分辨率补丁的“扁平”向量形式)。基于此,我们定义了一个卷积层来生成最终的高分辨率图像:

这里W3的大小是n2times;f3times;f3times;c,B3是一个c维向量。

如果高分辨率补丁的表示在图像域(即,我们可以简单地重塑每个表示形成补丁),我们期望滤波器像一个平均滤波器;如果高分辨率补丁的表示在其他领域(例如,某些基的系数),我们期望W3的行为表现为首先将系数投影到图像域上,然后进行平均。无论哪种方式,W3都是一组线性滤波器。

有趣的是,尽管上述三种操作具有不同的直觉动机,但它们都导致了与卷积层相同的形式。我们将这三种操作放在一起,形成一个卷积神经网络(图2)。在这个模型中,所有的过滤权值和偏差都需要进行优化。

尽管整体结构很简洁,但我们的SRCNN模型是通过获得超分辨率[25,26]的重大进展所导致的广泛经验而精心开发的。我们将在下一节中详细介绍这个关系。

3.2与基于稀疏编码的方法的关系

我们证明了基于稀疏编码的SR方法[25,26]可以看作是一个卷积神经网络。图3显示了一个插图。

在基于稀疏编码的方法中,让我们考虑从输入图像中提取一个f1times;f1低分辨率补丁。这个补丁被减去它的平均值,然后被投影到一个(低分辨率的)字典上,如果字典大小为n1,这相当于对输入图像应用n1个线性滤波器(f1times;f1)(平均减法也是一个线性运算,因此可以被吸收)。如图3的左侧部分所示。

然后将稀疏编码求解器应用于投影的n1系数(例如,参见特征符号求解器[17])。该求解器的输出是n2个系数,在稀疏编码的情况下通常是n2个=n1。这些n2个系数是高分辨率补丁的表示。在这个意义上,稀疏编码求解器表现为一个非线性映射算子。请参见图3的中间部分。然而,稀疏编码求解器并不是前馈的,即它是一个迭代算法。相反,我们的非线性算子是完全前馈的,可以有效地计算。我们的非线性算子可以看作是一个像素级的全连通层。

然后将上述n2个系数(稀疏编码后)投影到另一个(高分辨率)字典上,生成一个高分辨率的补丁。然后对重叠的高分辨率补丁进行平均。如上所述,这等价于n2个特征映射上的线性卷积。如果用于重建的高分辨率补丁的大小为f3times;f3,那么线性滤波器具有等效的空间支持度,大小为f3times;f3。请参见图3的正确部分。

然后将上述n2个系数(稀疏编码后)投影到另一个(高分辨率)字典上,生成一个高分辨率的补丁。然后对重叠的高分辨率补丁进行平均。如上所述,这等价于n2个特征映射上的线性卷积。如果用于重建的高分辨率补丁的大小为f3times;f3,那么线性滤波器具有等效的空间支持度,大小为f3times;f3。请参见图3的正确部分。 剩余内容已隐藏,支付完成后下载完整资料


英语原文共 16 页,剩余内容已隐藏,支付完成后下载完整资料


资料编号:[596211],资料为PDF文档或Word文档,PDF文档可免费转换为Word

您需要先支付 30元 才能查看全部内容!立即支付

发小红书推广免费获取该资料资格。点击链接进入获取推广文案即可: Ai一键组稿 | 降AI率 | 降重复率 | 论文一键排版