

英语原文共 8 页,剩余内容已隐藏,支付完成后下载完整资料
用于图像质量评价的卷积神经网络
Le Kang ; Peng Ye ; Yi Li ; David Doermann
摘要:本文提出了一种卷积神经网络(CNN),它可以准确地预测与人类感知有关的失真图像的质量。 该工作重点关注最具挑战性的客观图像质量评价(IQA)任务:通用的无参考IQA(NR-IQA),它评估数字图像的视觉质量,无需参考图像,也无需事先了解失真类型。
一:介绍
视觉质量是图像非常复杂但固有的特征。 原则上,它是与理想成像模型或无失真的参考图像相比的失真度量。 当参考图像可用时,可以应用全参考(FR)IQA方法[14],[22],[16],[17],[19]来直接量化失真图像与其相应参考图像之间的差异。 最先进的FR方法,如VIF [14]和FSIM [22],与人类感知有很高的相关性。
然而,在许多实际的计算机视觉应用中,不存在失真图像的完美版本,因此需要NR-IQA。 NR-IQA测量可以通过利用可以区分图像失真的特征来直接量化图像失真。大多数成功的方法都使用基于自然场景统计(NSS)的功能。通常,基于NSS的特征表征某些过滤器响应的分布。使用例如小波变换[10]或离散余弦变换[13]在图像变换域中提取传统的基于NSS的特征。由于使用计算上复杂的图像变换算法,这些方法通常非常慢。 NR-IQA方法的最新发展 - CORNIA [20],[21]和BRISQUE [9]推动了从空间域提取特征,这导致计算时间的显著减少。 CORNIA演示了可以直接从原始图像像素中学习判别图像特征,而不是使用手工设计的特征。
基于这些观察,我们探索使用卷积神经网络(CNN)来学习NR-IQA任务的判别特征。最近,深度神经网络得到了研究人员的关注,并在各种计算机视觉任务上取得了巨大成功。具体来说,CNN在许多物体识别的相关测试中表现出优越的性能[6],[7],[4]。 CNN的优势之一是它可以将原始图像作为输入,并将特征学习纳入训练过程。通过深层结构,CNN可以以最少的领域知识有效地学习复杂的映射。
据我们所知,CNN尚未应用于通用NR-IQA。主要原因是原始的CNN不是为捕获图像质量功能而设计的。在对象识别领域中,良好的特征通常编码局部不变部分,然而,对于NR-IQA任务,良好的特征应该能够捕获NSS属性。 NR-IQA与物体识别之间的区别使得CNN的应用不直观。我们的一个贡献是我们修改了网络结构,以便它可以更有效地学习图像质量特征并更准确地估计图像质量。
我们论文的另一个贡献是我们提出了一个新颖的框架,允许学习和预测局部区域的图像质量。 以前的方法通常在整个图像上累积特征以获得用于估计总体质量的统计数据,并且很少显示出估计局部质量的能力,除了[18]中的简单示例。 相比之下,我们的方法可以估计小图像块(例如32times;32)的质量。 局部质量估计对于图像去噪或重建问题很重要,仅在需要时应用增强。
我们通过实验证明所提出的方法改进了现有的方法。 在LIVE数据集中,我们的CNN优于CORNIA和BRISQUE,并且与FSIM [22]等最先进的FR测量结果相当。 除了卓越的整体性能外,我们还展示了定性结果,证明了我们方法的局部质量评估。
二:相关工作
此前,研究人员已尝试将神经网络用于NR-IQA。 李等人在[8]中应用了一般回归神经网络,其作为输入的感知特征包括相位一致性,熵和图像梯度。 Chetouani等人在[3]中使用了一个结合多种特定失真NR-IQA方法的神经网络。 这些方法需要预先提取的手工设计的特征,并且仅使用神经网络来学习回归函数。 因此,它们没有以整体方式学习特征和回归模型,并且这些方法不如现有技术方法。 相比之下,我们的方法不需要任何手工设计的功能,并直接从标准化的原始图像像素中学习判别特征,以实现更好的性能。
卷积神经网络的应用一定程度上是由CORNIA [20],[21]中介绍的特征学习框架推动的。 首先,CORNIA功能直接从局部归一化的原始图像小块中学习。 这意味着可以从空间域中提取判别特征而无需复杂的图像变换。 其次,受监督的CORNIA [21]采用了一种双层结构,它基于类似EM的方法同时学习回归模型中的滤波器和权重。 该结构可被视为双层神经网络的经验实现。 然而,它没有利用神经网络的全部功能。
我们的方法将特征学习和回归集成到一般的CNN框架中。 优点是双重的。 首先,使网络更深入将显著提高学习能力[1]。 在以下部分中,我们将看到,使用比CORNIA更少的过滤器/功能,我们能够实现最好的结果。 其次,在CNN框架中,使用像反向传播这样的简单方法对整个网络进行培训,可以方便地结合最近用于改进学习的技术,如dropout[5]和整流线性单元[7]。 此外,在我们建立NR-IQA和CNN之间的桥梁之后,快速发展的深度学习社区将成为推进NR-IQA性能的新技术的重要来源。
三:基于卷积神经网络的图像质量评价
所提出的使用CNN进行图像质量估计的框架如下。 给定灰度图像,我们首先执行对比度归一化,然后从中提取不重叠的小块。 我们使用CNN来估计每个小块的质量得分并求平均值以获得图像质量评价分数。
3.1 网络结构
拟议的网络由五层组成。 图1显示了我们网络的架构,它是一个32times;32-26times;26times;50-2times;50-800-800-1结构。 输入是局部归一化的32times;32图像块。 第一层是卷积层,用50个卷积核过滤输入,每个卷积核大小为7times;7,步长为1个像素。 卷积层产生50个特征图,每个特征图的大小为26times;26,然后是池化操作,将每个特征图缩减为一个最大值和一个最小值。 在池化之后,是两个由800个节点组成的全连接层。 最后一层是一个简单的线性回归,其中一维输出给出了分数。
3.2 局部归一化
以前的NR-IQA方法,例如BRISQUE和CORNIA,通常应用对比度归一化。 在本文中,我们采用类似于[9]的简单局部对比度归一化方法。 假设位置(i,j)处的像素的亮度值是I(i,j),我们按如下方式计算其归一化值I ^(i,j):
其中C是一个正值常数,可以防止除数为零。 P和Q是标准化窗口大小。 在[9]中证实较小的归一化窗口大小改善了性能。 在实践中,我们选择P = Q = 3,因此窗口大小比输入图像块的大小小得多。 注意,通过该局部归一化,每个像素可以具有不同的局部均值和方差。
局部标准化很重要。 我们观察到使用较大的归一化窗口会导致性能下降。 具体而言,将整个图像块的均值和方差应用于每个像素的均匀归一化将导致性能下降约3%。
值得注意的是,当使用CNN进行物体识别时,通常将全局对比度归一化应用于整个图像。 归一化不仅缓解了使用sigmoid神经元的早期工作中常见的饱和问题,而且使网络对亮度和对比度变化具有鲁棒性。 对于NR-IQA问题,应在本地应用对比度归一化。 此外,尽管在某些应用中亮度和对比度变化可被视为失真,但我们主要关注由图像质量下降引起的失真,例如模糊,压缩和加性噪声。
3.3 池化
在卷积层中,局部归一化的图像块与50个滤波器卷积,并且每个滤波器生成特征映射。 然后,我们在每个要素图上应用池化,以将输出减少到较低维度。 具体来说,每个特征映射池化为一个最大值和一个最小值,这与CORNIA类似。 令表示在第k个滤波器获得的特征映射的位置(i,j)处的响应,然后和的max和min值由下式给出:
|
(4) |
|
|
(5) |
其中k = 1,2,...,K和K是内核的数量。合并过程将每个特征映射缩减为二维特征向量。因此,下一个完全连接层的每个节点采用大小为2times;K的输入。值得注意的是,虽然最大池化已经很好地起到效果,但引入最小池化会使性能提高约2%。
在对象识别场景中,通常对每个2times;2单元执行合并。在那种情况下,从每个小块中选择代表性滤波器输出可以保持一些位置信息,同时实现转化过程中的鲁棒性。该操作对于对象识别特别有用,因为对象通常可以被建模为以特定空间顺序组织的多个部分。然而,对于NR-IQA任务,我们观察到图像失真通常是局部均匀的(如果不是全局的),即例如在32times;32图像块的所有位置处发生相同水平的失真。在图像失真中缺乏明显的全局空间结构使得能够在不保持位置的情况下进行合并以降低计算成本。
3.4 整流线形单元ReLU
我们在两个全连接层中使用整流线性单元(ReLU)[11]而不是传统的sigmoid或tanh函数。 [7]在深度CNN中证明,与使用tanh单元相比,ReLU使网络训练速度提高了几倍。 这里我们简要介绍一下ReLU。 ReLU通过对输入应用阈值函数来代替sigmoid或tanh变换,从而采用一种简单的非线性形式。 令g,wia和ai分别表示ReLU的输出,ReLU的权重和前一层的输出,然后ReLU可以在数学上被描述为g = max(0,Sigma;iwiai)。
请注意,ReLU仅允许非负信号通过。 由于这个属性,我们在卷积和池化层上不使用ReLU,而是使用线性神经元。 原因是最小池化通常产生负值,我们不希望阻止这些负的池化输出中的信息。
3.5 学习
我们在从大图像中获取的非重叠32times;32小块上训练我们的网络。 对于训练,我们为每个小块分配源图像的基础真实分数作为小块的质量分数。 我们可以这么做,因为我们实验中的训练图像具有均匀的失真。 在测试阶段,我们平均每个图像小块分数的预测分数以获得大图像质量分数。 与在给定数据集上使用完成图像相比,通过将小块作为输入,我们具有更多数量的训练样本,这特别满足CNN的需要。
令xn和yn分别表示输入小块及其真实分数,并且f(xn; w)是具有网络权重w的xn的预测得分。 在以前的NR-IQA工作[21],[9]中,具有ε不敏感损失的支持向量回归(SVR)已成功应用于学习回归函数。 我们采用类似的目标函数如下:
注意,上述损失函数等效于ε-SVR中使用的损失函数,其中ε= 0。 随机梯度下降(SGD)和反向传播用于解决该问题。 验证集用于选择训练模型的参数并防止过度拟合。 在实验中,我们在训练中执行40次迭代的SGD并保持在验证集上生成最高线性相关系数(LCC)的模型参数。
最近成功的神经网络方法[7],[5]报告了dropout和ReLU可以改善学习。 在我们的实验中,我们也发现这两种技术可以提高性能。
Dropout是一种防止训练神经网络过度拟合的技术。 通常,神经元输出以一定的概率被设置为零,训练阶段的概率为0.5,在测试阶段除以2。 通过随机屏蔽神经元,dropout是训练具有共享权重的许多不同网络的有效方法。 在我们的实验中,由于对所有层应用压降会显着增加达到收敛的时间,因此我们仅在第二个全连接层上应用dropout。
用动量更新网络权重是一种广泛采用的策略。 我们以下列形式更新权重:
其中wt是次数为t时的权重,ε0= 0.1是学习率,d = 0.9是学习率的衰减,rs = 0.9和re = 0.5分别是开始和结束时刻的动量值,T = 10是控制动量如何的阈值 随着迭代的次数而变化。 请注意,与动量从0.5开始并保持在0.99的[5]不同,我们在开始时使用大动量并随着训练的进行减少动量。 我们通过实验发现,此设置可以实现更好的性能。
四:实验
4.1 实验标准
数据集:
以下两个数据集在实验中被使用:
1. LIVE [15]:总共779个失真图像,有5种不同的失真 - JP2k压缩(JP2K),JPEG压缩(JPEG),白噪声(WN),高斯模糊(BLUR)和快速衰落(FF)从29个参考图像导出7-8个失真水平。 为每个图像提供差分平均意见得分(DMOS),大致在[0,100]范围内。 较高的DMOS表示较低的质量。
2. TID2008 [12]:17个失真图像,具有17种不同的失真,这些失真源自25个参考图像的4个失真级别。 在我们的实验中,我们只考虑LIVE数据集共享的四种常见失真,即JP2k,JPEG,WN和BLUR。 每个图像与[0,9]范围内的平均意见得分(MOS)相关联。 与DMOS相反,较高的MOS表示较高的质量。
评估:
两个度量用于评估IQA算法的性能:1)线性相关系数(LCC)和2)斯皮尔曼等级相关系数(SROCC)。 LCC测量两个量之间的线性相关性,SROCC测量一个量可以被描述为另一个量的单调函数的程度。 我们报告从100次训练测试迭代中获得的结果,其中在每次迭代中我们随机选择60%的参考图像及其扭曲版本作为训练集,20%作为验证集,剩余的20%作为测试集。
4.2 在LIVE数据集上的实验
在LIVE数据集上,对于特定于失真的实验,我们对五种失真中的每一种进行训练和测试:JP2K,JPEG,WN,BLUR和FF。对于非失真特定的实验,所有五个失真的图像被一起训练并测试而不提供失真类型。
表1显示了与先前的现有技术NR-IQA方法以及FR-IQA方法相比的两个实验的结果。表现最佳的NR-IQA方法的结果以粗体显示。 FR-IQA方法通过使用80%的数据来拟合非线性逻辑函数,然后测试20%的数据来评估。从表1可以看出,我们的方法在五种失真中都很有效,特别是在JPEG,JP2K和FF上。对于整体评估,我们的CNN优于所有先前的NR-IQA方法,并与采用最先进的FR-IQA方法FSIM结果接近。
我们检查学习过程中的卷积核,并发现只有少数卷积核呈现出与失真类型明显相关的结构。图2显示了在JPEG
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[19597],资料为PDF文档或Word文档,PDF文档可免费转换为Word
您可能感兴趣的文章
- 饮用水微生物群:一个全面的时空研究,以监测巴黎供水系统的水质外文翻译资料
- 步进电机控制和摩擦模型对复杂机械系统精确定位的影响外文翻译资料
- 具有温湿度控制的开式阴极PEM燃料电池性能的提升外文翻译资料
- 警报定时系统对驾驶员行为的影响:调查驾驶员信任的差异以及根据警报定时对警报的响应外文翻译资料
- 门禁系统的零知识认证解决方案外文翻译资料
- 车辆废气及室外环境中悬浮微粒中有机磷的含量—-个案研究外文翻译资料
- ZigBee协议对城市风力涡轮机的无线监控: 支持应用软件和传感器模块外文翻译资料
- ZigBee系统在医疗保健中提供位置信息和传感器数据传输的方案外文翻译资料
- 基于PLC的模糊控制器在污水处理系统中的应用外文翻译资料
- 光伏并联最大功率点跟踪系统独立应用程序外文翻译资料
