基于四元数主成分分析网络的彩色图像分类外文翻译资料

 2022-11-24 16:00:07

英语原文共 13 页,剩余内容已隐藏,支付完成后下载完整资料


基于四元数主成分分析网络的彩色图像分类

RuiZeng a,d, JiasongWu a,b,c,d,n, ZhuhongShao e, YangChen a,b,c,d, BeijingChen f, Lotfi Senhadji b,c, HuazhongShu a,d

a 东南大学计算机网络与信息集成教育部重点实验室,南京210096

b INSERM,U 1099,法国雷恩35000

c Rennes1,LTSI,法国雷恩35000

d 中国生物医学研究中心,中国南京210096

e首都师范大学信息工程学院,北京100048

f南京信息工程大学中美计算机科学研究中心,中国南京 210044

文章历史:

2016年1月8日收到

2016年6月18日修订

2016年8月1日接受,通过卢继文传达

2016年8月8日在线提供

关键字:

深入学习、卷积神经网络、四元数、QPCA网、PCA网络、彩色图像分类

摘要:

作为最近提出的深度学习架构之一的主成分分析网络(PCANet)实现了各种数据集中最先进的分类准确性,并揭示了深度学习网络的简单基线。然而,由于PCANet的体系结构不能很好地利用三维彩色图像中每个彩色通道之间的空间关系,所以在处理彩色图像时PCANet的性能可能会降低。本文提出了一种基于四元数理论扩展PCANet的四元数主分量分析网络(QPCANet),用于彩色图像分类。 与PCANet相比,本文提出的QPCANet考虑了彩色图像中RGB通道的空间分布信息,并通过四元数域表示对彩色图像保证了较大的类内不变性。 在UC Merced Land Use,Georgia Techface,CURet和Caltech-101等不同的彩色图像上进行的实验表明,所提出的QPCANet在彩色图像分类任务中通常比PCANet具有更高的分类准确率。实验结果也验证了QPCANet 当彩色图像数据集包含大量的旋转信息时,比PCANet具有更好的旋转不变性,并且证明了与双层PCANet相比,即使是简单的单层QPCANet也可以获得令人满意的精度。

1、介绍:

近年来,图像分类成为模式识别和计算机视觉领域的研究热点。 这是一个非常具有挑战性的任务,因为图像内容识别受到图像的各种变化如照明,旋转,缩放或更复杂的变形的影响。 为了有效地对抗图像内容的类内变化,在过去的几十年中已经提出了许多方法。 这些方法一般可以分为两组:手动提取内在特征和从感兴趣的数据中无监督地/监督地学习特征。

对于第一组,最常用的方法是尺度不变特征变换(SIFT),Gabor特征和局部二元模式(LBP)。 它们都在不同类型的图像分类任务中取得了很大的成功,如对象识别,纹理分类和人脸识别。 然而,这种方法的局限性是显而易见的,因为我们需要在处理新图像分类任务时手动选择合适的特征,这通常需要图像内容的专业知识。

为了克服上述手工方法的局限性,第二批众所周知的深度学习方法,近年来已成为一个非常活跃的研究领域。深度学习的目标是通过多层次的体系结构从数据中提取内在特征,希望更高层次的特征代表更加简洁的数据语义。已经提出了很多方法来构建深度学习架构,大致可以分为四类:(1)基于概率模型的深度学习架构,例如深度信念网络(DBN)和深度玻尔兹曼机器(DBM); (2)基于重构算法的深度学习体系结构,如深度自动编码器和稀疏编码; (3)基于流形学习算法的深度学习架构,如局部坐标编码(LCC)算法; (4)基于多层神经网络的深度学习体系结构。在这个类别中,由LeCun等人首先提出的卷积神经网络(CNN)在2012年赢得了ImageNet大规模视觉识别挑战的冠军之后逐渐成为图像分类的主流深度学习结构。然后,Overfeat, VGGNet,GoogleNet和ResNet在2013年到2015年的ImageNet挑战中进一步提出并获得比AlexNet更低的错误率。一般来说,具有多个参数的多层CNN非常适合于大规模图像数据集的分类,例如,ImageNet数据库。然而,当图像数据集的大小不是很大时,参数很少的两层或三层卷积网络就足以实现良好的分类性能。例如,Mallat和Bruna提出了一个数学证明的小波散射网络(ScatNet),它的卷积层,非线性层,汇聚层分别由前缀的复小波,模算子和平均算子构成。更重要的是,Chan等人提出了一种新的深度学习体系结构 - 主分量分析网络(PCANet),它的卷积层,非线性层,汇聚层分别由主成分分析(PCA)滤波器,二进制散列和块式直方图构成。尽管PCANet使用最基本和最简单的操作,但对于大多数图像分类任务(包括人脸图像,手写数字,纹理图像,对象图像等)而言,其与现有技术的特征选择技术相当并且常常更好。同时,Chan等人提出线性判别分析网络(LDANet)作为PCANet的变体。PCANet的结构吸引了研究者的关注。 Gan等人提出了用于人脸识别的深度图嵌入网络(GENet),并且Feng等人提出了用于场景分类的判别性局部对准网络(DLANet)。Jia等人提出了用于日间极光分类的二维PCANet(2DPCANet)。 Qin等人将PCANet与空间金字塔池结合用于水下活鱼识别。Zhao等人提出了用于图像上采样的多级修正有限氡变换网络(MMFRTN)。 Lei等人开发了用于人脸识别的堆叠图像描述符。 Li等人在RGBD(红色,绿色,蓝色,深度)图像中提出用于人类手势识别的SAE-PCA网络。 Zeng等人使用多线性判别分析网络(MLDANet)进行张量对象分类。

另一方面,彩色图像处理也吸引了研究者的注意力,因为与灰度图像相比,彩色图像处理能够提供更多的真实世界物体信息。彩色图像的经典表示通常将红(R),绿(G),蓝(B)通道的值组合成一个向量。在这种简单的表示下,每个颜色通道像素之间的关系被破坏,图像的尺寸是灰度图像的三倍。因此,通过考虑R,G,B通道之间的空间关系,寻求更适当地表示彩色图像的方法是至关重要的。四元数被认为是表示彩色图像和旋转操作的强大数学工具。这样,彩色图像可以被表示为一个紧凑的四元数,它保留了彩色图像的内在结构以及R,G,B通道之间的空间关系。Bihan和Sangwine以及Pei等人提出了一种新的彩色图像四元数特征提取方法,称为四元数主成分分析(quaternion principal component analysis,QPCA),它能够在彩色图像中比传统的PCA提取更强的信息特征,这些研究强调QPCA在彩色图像表现上优于PCA。

目前,大多数上述特征提取算法(SIFT,LBP,PCANet,LDANet等)仅仅是针对灰度图像分类而设计的,在简单地应用于彩色图像分类时会遇到很多问题,如性能退化,维度灾难 等等。 因此,需要进行类似的适合彩色图像分类的研究。

为解决上述问题,本文提出了一种新的彩色图像特征提取算法,即四元数主分量分析网络(QPCANet),它是一种四元数深度学习体系结构,将PCANet方法的原理从实域拓展到四元域。QPCANet的输入利用彩色图像的四元数表达式,其中R,G,B通道的值分别被放入四元数的三个图像部分。在QPCANet的处理阶段,首先利用QPCA滤波器的四元数卷积层提取彩色图像的高层语义四元数特征。然后,我们使用四元数二进制散列运算来构造非线性层。 对于最后阶段,即汇集层,对从上述层提取的四元数特征的四个分量的块直方图运算进行处理,以生成用于分类的特征向量。本文还对QPCANet特征在各种分类器如k-最近邻(KNN),大规模线性支持向量机(大规模支持向量机)上的性能进行了深入研究。此外,QPCANet在各种彩色图像数据库上对于多种分类任务包括人脸识别、目标识别、纹理分类和土地利用分类与PCANet进行评价和进行比较。本文的贡献如下。 首先,提出了一种新的特征提取算法,即QPCANet,它在RGB彩色图像分类上比RGB PCANet,RGB LDANet,RGB SIFT和RGB LBP具有更好的性能。 其次,我们证明,尽管四元数体系结构简单通用,但是一层QPCANet比两层PCANet的效果更好。 最后但并非最不重要的是,就我们所知,我们首先将深度学习网络扩展到四元数域。 重要的是,这项工作给四元域深度学习神经网络提供了一个全新的视角。 我们的实验表明,即使是低层次的四元数层次卷积网络也可能胜过实际域中的高层卷积网络。

本文的其余部分安排如下。在第2节中简要介绍了四元数代数和QPCA。第3节详细描述了QPCANet的体系结构,并说明了它的工作原理。 第4节介绍了类似的在文献报道的方法和他们在实验中的参数设置。 QPCANet的模型参数也在本节讨论。 在第5节中,对各种彩色图像数据集上的QPCANet和PCANet的分类性能进行评估和比较。第6节总结本文。

  1. 四元数代数和QPCA

在这一节中,我们简要回顾一下四元数代数和QPCA。

2.1 四元数代数

四元数x是一个超复数,由一个实部和三个虚部组成:(1)其中Q表示四元数字段,,R表示真实字段,i、j、k是符合以下规则的三个虚构单位,=ijk=-1,ij=-ji=k,ki=-ik=j,jk=-kj=i(2)。

上面的等式表明四元数乘法是不可交换的。 当s(x)=0我们把x称为纯四元数。四元数x的共轭和l2范数定义为(3) (4)

如果||x||=1,我们称x为一个四元组。 有关四元数属性的完整回顾,请参阅[42]。

2.2 QPCA

彩色图像可以被表示为其元素如下的纯四元数矩阵:(5)

其中和分别代表位置(s,t)处的像素的红色,绿色和蓝色分量。

假设我们有一组四元数图像。我们矢量化所有四元数图像,并将它们表示为,然后将它们连接起来得到(6)。

那么,协方差矩阵由(7)给出。在中,是一个其列以Q为中心的矩阵,上标H是共轭转置算子。 然后,彩色图像的QPCA由下式给出:(8)。

注意,C是一个四元数埃尔米特矩阵,Omega;是一个实数矩阵,根据四元数特征值分解的每一列是C的一个特征向量。 那么彩色图像的四元数特征可写为:(9)。

Qf的每一列都是一个四元数的特征,对应着每一个彩色图像。

可以注意到,QPCA对于彩色图像的空间旋转是不变的,但是如果我们连接R,G,B通道的值,然后使用普通的PCA,则对于空间旋转不会产生彩色图像空间旋转。 这就是QPCA在处理彩色图像时优于普通PCA的原因。

3 四元数主成分分析网络(QPCANet)

所提出的QPCANet的体系结构如图1所示。在本节中,我们分析了用于彩色图像分类的双层QPCANet(QPCANet-2)的结构,并且展示了如何构建多层QPCANet。

3.1 第一个QPCA层

假设我们有N个四元数图像及其对应的训练标签。为了简单起见,我们假设补丁大小为k1 * k2,k1和k2是正奇数。 我们收集第i个四元数图像Q i的每个像素周围的所有(m-k1 1)*(n-k2 1)四元数块。 然后每个四元数块的中心减去其平均值。 因此,我们得到第i个四元数图像的零均值四元数块。我们用来表示这些四元数特征的集合,其中qi的每一列属于.重复上述过程,我们可以得到所有N个输入模式的四元数块用于训练。 通过构造所有四元数矩阵的相同矩阵,并将它们放在一起,就得到了(10)。

q的协方差矩阵计算如下:(11)。

上面的矩阵允许四元数特征值分解:(12)。其中是包含C1特征向量的酉矩阵,是在其对角线上具有特征值的对角矩阵。Omega;的对角线上的值按照递减的次序排列,并且相应的本征向量,即q的主要分量相应地设置在中。 特征值越大,四元数主成分就越重要。 这些主要分量矢量也被称为QPCA滤波器组。

让Li是第i层中所需的QPCA滤波器数量。 我们选择的第一个L1特征向量形成一个新的矩阵,其中每列都被看作是一个滤波器:(13)。这些滤波器形成四元数图像{Qi,i=1,hellip;,N}的滤波器组。滤波器组捕获所有四元数块的主要变化。

然后,第一个QPCA层使用QPCA滤波器组W1执行卷积以获得Q i的一组四元数特征映射,如下:(14),其中是Qi的第l个特征图。 Qi的边界由零四元数(即零填充)填充,其实部和三个虚部为零,以确保和Qi的大小为m * n。 然后可以根据QPCA滤波器l的数量将Qi转换成几个四元数特征映射. 事实证明,的每个元素也可以用作四元数的输入模式。通过重复上述过程,可以期望得到高层次的特征。

3.2 第二个QPCA层

重复与第一阶段相同的过程,我们从所有图像的所有四元数特征映射中收集所有与第一层大小相同的四元数块。 我们将这些四元数块表示为块集,其中是的四元数块。然后将集合发送到QPCA算法以获得第二层中的滤波器组。对于滤波器组,我们只选取第一列L2,形成一个新的滤波器组,然后通过进行卷积,得到L1 * L2四元数映射如下:(15)。

图1 两阶段QPCANet的体系结构

一个或多个额外的阶段可以像上面那样堆叠。 但是在我们的实验中,我们发现QPCANet-2足以在彩色图像分类中获得很好的准确性,因此不一定需要深层次的结构。

3.3 四元数映射编码

为了减少四元数特征映射的复杂度,使得提取的特征更加可分离,对第二个QPCA层提取的四元数特征映射进行二值化,加权和叠加。 因此,通过将Heaviside阶跃函数H(.)应用于其四个部分(H(.)的值为正项,否则为零)来对每个四元数特征映射进行二值化。 二进制四元数特征映射表示为,并且对得到的映射进行加权以形成新的四元数模式:(16)。

请注意,的像素值在属于区间的定位区间中。

接下来,我们讨论如何对这些二元化的四元数特征映射进行编码。由于有四个部分

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[22551],资料为PDF文档或Word文档,PDF文档可免费转换为Word

您需要先支付 30元 才能查看全部内容!立即支付

发小红书推广免费获取该资料资格。点击链接进入获取推广文案即可: Ai一键组稿 | 降AI率 | 降重复率 | 论文一键排版