基于深度卷积神经网络的图像去噪方法外文翻译资料

 2022-11-11 11:11:17

英语原文共 9 页,剩余内容已隐藏,支付完成后下载完整资料


IET图像处理

研究文章

基于深度卷积神经网络的图像去噪方法

张福1、年才1、吴继秀1、关东森1、韩旺2、陈新都2

发表于1751-9659

2017年4月26日收到2017年7月29日修订

2017年11月12日接受E-First于2018年1月8日接受

二:10.1049 / iet-ipr.2017.0389www.ietdl.org

1广东工业大学信息工程学院,广州510006,中华人民共和国

2广东工业大学机电工程学院,广州510006,中华人民共和国电子邮件:cainian@gdut.edu.cn

要:图像去噪仍然是图像处理中的一个挑战性问题。作者提出了一种基于深度卷积神经网络(DCNN)的新型图像去噪方法。与其他基于学习的方法不同,作者设计了DCNN来实现噪声图像。因此,可以通过将噪声图像与污染图像分离来获得潜在清晰图像。在训练阶段,采用梯度裁剪方案来防止梯度爆炸并使网络快速收敛。实验结果表明,与现有技术的去噪方法相比,本文所提出的去噪方法可以获得更好的性能。此外,结果表明,去噪方法具有通过单个去噪模型抑制不同噪声水平的噪声的能力。

1简介

图像去噪是图像处理中的一个重要环节,它旨在从噪声观察y中估计潜在清洁图像x。给定一个加性高斯白噪声模型,它可以表示为

(1)

因此,图像去噪的目标是从y找到x的估计值,其中表示(未知)清洁图像,表示具有零均值和协方差矩阵(其中是单位矩阵)的高斯噪声向量,并且表示观察到的噪声图像。

在过去几十年中,已经发展了多种图像去噪方法,包括基于滤波的方法[1],基于扩散的方法[2],基于总变差的方法[3,4],基于小波/曲线的方法[5-7],基于稀疏表示的方法[8] -11],基于非局部自相似(NSS)的方法[11-18]等。在这些方法中,NSS模型在最先进的方法中很流行。它们具有良好的去噪性能,尤其适用于具有规则和重复纹理的图像。这是因为基于非局部平均值的方法通常对具有规则和重复纹理的图像更好,而基于判别训练的方法通常在具有不规则纹理或平滑区域的图像上产生更好的结果[19]。然而,NSS模型不可避免地存在两个主要缺点[12,17,18]。首先,它们经常需要指定一个特定的去噪功能,这导致算法可能无法为各种图像实现良好的去噪工作。其次,模型通常是非凸的,涉及多个手动选择的参数,为提高去噪性能提供了一些余地。

为了解决这些问题,最近开发了几种鉴别学习方法来学习图像先验模型,例如可训练的非线性反应扩散(TNRD)模型[20]。通过展开固定数量的梯度下降推断步骤来实现TNDR模型。然而,TNDR模型固有地限于先验信息的指定形式。具体而言,TNRD中采用的先验是基于分析模型,该模型仅限于捕获图像结构的全部特征。

实际上,TNRD模型是一种深度神经网络,可以表示为前馈深度网络。有一些其他用于图像去噪的深度神经网络[21-23]。Jain和Seung首先使用深度神经网络进行图像去噪[21]。他们声称,深度神经网络在图像去噪方面具有与马尔可夫随机场模型相似甚至更好的表示能力。Burger等人,建议使用多层感知器(MLP)进行图像去噪[22]。此外,他们结合了稀疏编码和深度神经网络预先训练与去噪自动编码器[23]。虽然这些深度神经网络在图像去噪方面取得了良好的性能,但由于它们级联了类MLP网络,因此不能有效地探索图像的固有特性。

如今,深度卷积神经网络(DCNN)由于具有良好的数据自学习能力,不需要严格选择其特点,只需要引导学习,就可以达到预期的目的,近年来吸引了越来越多的研究者。它广泛应用于图像预处理领域,如图像超分辨率[24-26]。由于图像超分辨率的成功,一些研究人员已经尝试将DCNN应用于图像去噪[27-29]。Lefkimmiatis提出了一种基于非局部图像模型的用于灰度和彩色图像去噪的新型深度网络架构[29]。正如作者所声称的那样,所提出的方法确实是一种NSS方法,它利用DCNN来学习NSS方法的参数。在[27,28]中,作者直接使用DCNN来实现去噪任务,其中将污染图像输入到DCNN中并输出相应的潜在清洁图像。此外,随机梯度下降法被用作训练策略,这将花费大量的训练消耗时间。

虽然DCNN成功实现了图像超分辨率,但它还是如此不能直接用于图像去噪。这是因为图像超分辨率和图像去噪的任务是完全不同的。对于图像超级解决方案,任务是从低分辨率图像重建高分辨率图像,与原始高分辨率图像相比,该图像丢失了大量信息。因此,DCNN可以借助于低分辨率图像直接预测高分辨率图像,因为卷积层可能潜在地涉及预测输出图像中的丢失信息。对于图像去噪,任务是从污染图像重建潜在清洁图像,其中噪声叠加在原始清洁图像上。与噪声图像相比,潜在干净图像包含更多信息。如果DCNN直接预测图像超分辨率中的DCNN等潜在干净图像,则输出中的现有信息图像比噪声图像中存在的图像更复杂。这意味着预测噪声图像的网络的学习负担远小于预测潜在干净图像的网络的学习负担。

受噪声成分与污染图像分离的启发[30-32],我们精心设计了一个DCNN来预测本文中的噪声图像,称为IDCNN。然后,可以通过将预测的噪声图像与污染图像分离来实现潜在清洁图像。此外,我们讨论了网络深度对去噪性能的影响。此外,还讨论了一些网络参数。最后,我们进行了一系列对比实验,以验证所提出的图像去噪方法。

本文的结构如下:在第2节中,我们详细说明了IDCNN的网络架构和实现。在第3节中,演示了实验结果和讨论。结论见第4节。

2设计的DCNN的网络架构

卷积神经网络是线性滤波和非线性变换操作的交替序列。输入和输出层包括一个或多个图像,输出层也可以是矢量。网络的中间层称为隐藏单元,每个隐藏单元的输出称为特征映射。

    1. 卷积层和激活功能

在第l个卷积层(隐藏单元),前一层的特征映射与卷积核进行卷积,输出特征映射通过激活函数F.每个输出特征映射可以将卷积与多个输入特征映射组合,表示为

i

i j j

(2)

1用于图像去噪的设计DCNN的网络架构

其中表示输入要素图的选择,表示偏差,是卷积运算符。

在我们设计的网络中,输入层和输出层具有相同的大小。其整体结构如图1所示。给定IDCNN的深度为d,每层使用相同的卷积运算。卷积运算实际上是线性滤波。由于卷积运算的线性特性,卷积运算的线性组合不能代表非平凡的问题。因此,在DCNN中,非线性激活函数被应用于每个卷积层的输出作为下一层的输入,以便允许这样的网络仅使用少量节点来计算非平凡问题。整流线性单元(ReLU)[33]通常用作DCNN中的激活函数,其是非线性映射。已经表明,使用整流器作为非线性可以训练深度监督神经网络而无需无人监督的预训练。与S形函数或类似的激活函数相比,ReLU允许在大型和复杂数据集上更快更有效地训练深度神经架构。

2.2损失函数和梯度剪裁

设和分别表示输入污染图像和输出噪声图像。鉴于训练数据集,我们的目标是学习一个预测值的模型,其中是所需清洁图像的估计值。因此,损失函数是

(3)

其中是DCNN的网络参数。是权重矩阵,是偏差向量,定义见(2)。我们的目标是最小化损失函数,找到DCNN的最佳参数。

显然,最小化是为了解决非凸优化问题。随机梯度下降法是解决这一优化问题的常用方法,它通过反向传播不断地调整和优化网络参数。我们尝试使用随机梯度下降训练所提出的DCNN。不幸的是,在我们提出的网络中,我们发现无论如何调整学习速率和其他网络参数,网络都很难收敛,网络性能也很差。当学习率大于0.01时,网络甚至无法收敛。这表明,随机梯度下降在我们提出的网络中使用时可能导致梯度爆炸。为了避免这些问题,一个常见的策略是将单个梯度裁剪到预先定义的范围。因此,在训练过程中,梯度保持在一定范围内。我们采用给定阈值的梯度削波方案[34,35]。假设给定的梯度阈值为beta;,则当前梯度值为g。If, then

(4)

因此,当当前梯度值在训练过程中超过给定阈值时,当前梯度值被分配到。因此,梯度在固定范围内变化,从而使设计的DCNN快速收敛。

2三个测试图像

2.3设计网络架构

设计的网络结构如图1所示。大小为43times;43的污染图像输入到设计的DCNN中,相应的输出是预测的噪声图像,输出的大小为43times;43。本文设计的网络设置为10。在设计的DCNN中有几个卷积层但没有池化层。在每个卷积层中,有64个5times;5卷积核。

众所周知,增加感受野的大小可以利用较大图像区域中的上下文信息[21]。这里,感受野在CNN中在空间上是连续的。CNN通过在相邻层的神经元之间实施局部连接模式来利用空间局部相关性[36]。换句话说,第层中的卷积层的输入是第层中的卷积层子集的输出。因此,形成空间连续的感受野。但是,每个卷积层对输入的接收字段之外的变化没有响应,这确保了所学的卷积核对空间局部输入模式产生最强的响应。然而,我们可以堆叠许多这样的层以使卷积核变得越来越全局(即响应于更大的像素空间区域)。换句话说,随着网络深度的增加,感受野的大小增加。假设我们对所有层使用具有相同大小的卷积核。对于第一层,感受野的大小是。对于第二层,感受野的大小在高度和宽度上都增加了,依此类推。因此,如果设计的DCNN的深度是,则其感受野是。

对于实验平台的局限性,设计的DCNN深度设置为10.似乎卷积核的尺寸越大,设计的DCNN的感受区域的尺寸越大,固定深度越大,设计的DCNN实现的性能越好。但是,值得一提的是,所有卷积运算都不使用零填充来避免训练期间的边界效应。在测试阶段,给予所有卷积层足够的零填充。因此,过零填充将导致严重失真。而且,与小尺寸的卷积核相比,具有大尺寸的卷积核将导致沉重的计算负担[26]。因此,卷积核的适当大小有助于设计的DCNN。在这里,我们将卷积核的大小设置为5times;5。如上段所示,设计的感受域应为41times;41。但是,为了确保网络在训练过程中具有良好的灵活性,我们选择尺寸为43times;43的输入图像。我们还进行了一项实验,以验证尺寸为43times;43的输入训练图像与其他尺寸的图像相比可以获得良好的性能。有关详细信息,请参阅第3.4节。

每个卷积层的更多卷积核可以实现更多的特征图,这表明可以表示输入图像的更多潜在特征。但是,超过一定水平的太多特征图将使训练过程在数值上不稳定[37]。大多数DCNN通常使用64个卷积核[24,26]。因此,我们还在每个卷积层使用64个卷积核。

3实验结果和讨论

    1. 实施设计的DCNN

我们使用Caffe [38]来训练设计的DCNN。Caffe是一个深入学习的框架,考虑到表达、速度和模块化。它是一个完全开放源码的框架,提供了对深层架构的清晰访问。它的代码是用干净、高效的C 编写的,其中有用于GPU计算的CUDA,以及几乎完整的、对Python/NoMPy和Matlab支持良好的绑定。Caffe模型定义使用协议缓冲语言作为配置文件写入。当使用Caffe训练DCNN时,网络结构和训练参数被预先配置为配置文件。如果在DCNN中添加了原始Caffe框架中不存在的新层,则与这些新层相关的代码应编程到原始caffe框架中。

在实验中,动量和重量衰减参数分别设定为0.9和0.0001。使用[39]中描述的方法用于初始化权重。

所有实验均由带有GPU NVIDIA Quadro K4200 4G,CPU Intel Xeon E5-2630 @ 2.3 GHz和16 GB内存的图形工作站完成。我们使用MatConvNet包进行了比较实验[40]。

    1. 数据预处理和指标

在以下实验中,从数据集中选择图像[41]和Berkeley Segmentation Dataset [42]用于构建训练数据集。通过旋转和缩放来增强图像。为简单起见,所有图像都转换为灰度图像。具有不同噪声水平的高斯噪声被叠加到所有图像。通过具有43times;43像素的滑动窗口裁剪图像,并且两个相邻子图像之间的滑动距离是14个像素。对于两个相邻的子图像,位于重叠窗口中的像素的值是相同的。因此,这些裁剪的子图像组成训练数据集。

峰值信噪比(PSNR,以dB为单位测量)用作评估去噪方法性能的度量。

    1. 设计的DCNN的非固定噪声掩模

通常,在DCNN方法中,具有相同噪声水平的训练污染图像通常使用固定的噪声掩模[23]。换句话说,是(1)中的固定矩阵。然而,我们发现具有非固定噪声掩模的

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[19030],资料为PDF文档或Word文档,PDF文档可免费转换为Word

您需要先支付 30元 才能查看全部内容!立即支付

发小红书推广免费获取该资料资格。点击链接进入获取推广文案即可: Ai一键组稿 | 降AI率 | 降重复率 | 论文一键排版