颜色到灰度:这种方法在图像识别中重要吗?外文翻译资料

 2023-08-28 05:08

英语原文共 8 页,剩余内容已隐藏,支付完成后下载完整资料


颜色到灰度:这种方法在图像识别中重要吗?

Christopher Kanan*, Garrison W. Cottrell

美国加州大学圣地亚哥分校计算机科学与工程系,拉荷亚,加利福尼亚

摘要

在图像识别中,通常认为在识别性能中将彩色图像转换成灰度的方法对图像的识别效果影响不大。我们比较了13种不同的灰度算法与四种类型的图像描述符并且证明这个假设是错误的:不是所有的颜色到灰度的算法都工作得一样好,即使在使用的时候,对光照变化具有鲁棒性的描述符。这些方法使用基于描述符的现代图像进行测试识别框架,在人脸,物体和纹理数据集,相对较少的训练实例。我们确定一个简单的,通常最适合人脸和物体识别的方法,以及两种最适合纹理识别的方法。

介绍

现代基于描述符的图像识别系统通常对灰度图像进行操作,很少有人提到从颜色到灰度的转换机制。这是因为大多数研究人员认为,在使用健壮的描述符时,颜色到灰度的方法没有什么影响。然而,由于在计算机视觉中已经使用了许多转换成灰度的方法,我们认为评估这个假设是否合理是谨慎的。最常见的技术是基于红、绿、蓝图像通道的加权平均值(如强度和亮度),但有些方法采用替代策略来生成更直观准确的表示(如流明和亮度[1]),或在灰度图像中保留主观吸引人的颜色对比度信息(如脱色[2])。因此,这些准则中没有一个建议优越的识别性能。灰度表示之所以经常用于提取描述符而不是直接对彩色图像进行操作,其主要原因是灰度表示简化了算法,减少了计算量。事实上,在许多应用程序中,颜色的好处可能是有限的,引入不必要的信息可能会增加实现良好性能所需的培训数据量。本文比较了13种不同的颜色灰度转换方法。虽然我们不会评估所有已经开发的方法,但是我们会评估所有广泛使用的方法,以及一些不太为人所知的技术(例如,脱色)。所有这些方法的计算成本都很低。,它们都有像素数量的线性时间复杂度。该比较采用朴素贝叶斯最近邻(NBNN)[3]图像识别框架进行和四种不同类型的图像描述符。我们的目标是确定所使用的灰度表示是否会显著影响性能,如果是,则确定无论数据集或描述符类型如何,首选哪种方法。我们的实验是在相对较少的实例中进行的,因为在这个设置[4]中,分类器的性能对描述符的质量更加敏感。造成这种现象的一个原因是,一个图像识别系统可以获得不变的属性,只要训练它与更多的数据,只要由于附加数据的变化与测试集[5]相同。对于许多应用程序来说,这是不可行的(例如,用于检测嫌疑犯的自动监视系统),而且它可能会降低某些非参数分类算法的执行速度,例如,最近邻算法。当训练集的大小很小时,如果描述符不够健壮,分类器可能会不恰当地分离类别。我们相信这在光照发生巨大变化的情况下尤其可能发生。

相关工作表明,光照条件和摄像机参数可以极大地影响最近几种图像描述符类型[6]的属性。这表明,当光照变化时,对光照条件不敏感的灰度算法可能表现出更好的性能。据我们所知,这是第一次在基于描述符的现代图像识别框架中对基于已建立的基准数据集的从颜色到灰度的算法进行评估。

方法

Color-to-Grayscale算法

在本节中,我们将简要描述13种线性方法从颜色到灰度的时间复杂度,即函数G将彩色图像转换为|米表示。假设所有的图像值都在0和1中间。设R、G、B为线性(即,而不是伽马修正)红色,绿色和蓝色通道。每个的输出灰度算法介于0和1之间。由于一些方法的名称如光泽和亮度,我们表示所有的灰度算法通过大写的第一个字母和斜体在文本中。所有转换是应用组件级的,即。独立、应用每个像素。有几种方法使用该标准伽马校正函数 [7]。我们表示伽玛校正通道为R , G ,和B 的输出多幅图像的灰度算法如图1所示。也许最简单的从颜色到灰度的算法是强度[1]。这是RGB通道的平均值:

. (1)

虽然强度是用线性通道计算的,但在实践中当使用数据集时,伽马校正通常保持不变,包含校正后的图像。我们称之为光方法:

. (2)

在像素值方面,强度和闪烁产生非常不同结果。由于是凹函数,詹森不等式[7]这意味着光永远不会产生具有值的表示大于校正后的强度,它是这样的

.

当伽玛校正强度和闪烁都适用自然图像,我们发现闪烁产生像素值周围平均减少20-25%。

不像强度和闪烁,亮度[8]是设计来匹配人类对亮度的感知, RGB通道采用加权组合的方法:

(3)

亮度并不符合人的对数性质亮度感知,但这是在一定程度上实现的伽马校正。亮度是标准算法,用于图像处理软件(如GIMP)。它是如何实现的,通过MATLAB的“rgb2gray”函数,它在计算机视觉(如[9])。亮度是一种类似的伽马校正形式,用于高清电视(HDTVs) [1]:

(4)

亮度是一种感知上统一的灰度表示,在CIELAB和CIELUV颜色空间[10]。这意味着一个

光的增加应该更接近人类的非线性变换实现的RGB颜色空间[10],

(5)

其中,还有

(6)

我们将亮度归一化为0到1,而不是通常范围为0到100。实现了轻量化非线性f (t)一种伽马校正形式。值为色相、饱和度、和中的消色差通道值(HSV)颜色空间,提供绝对亮度信息。它是通过取RGB的最大值来计算的频道[10]:

(7)

由于伽玛校正是一个单调递增的函数,因此之前,

HSV在图像识别中偶尔使用(如[9,11,12]),但是值对一种颜色的亮度变化同样敏感,由于通道是要更改为所有颜色通道,所以我们希望它这样做,当出现明显的亮度变化时,表现不佳。光泽是HLS(色相,明度,和)中的L通道饱和度)颜色空间[1]。我们把它的名字从轻改成光泽,所以不与CIELAB的亮度通道相混淆。光泽为最小和最大RGB值的均值,即

(8)

它对亮度变化的敏感度比任何值都要低,饱和原色会使价值最大化,但三种渠道都有必须完全饱和才能使光泽最大化。包括HLS和HSV,设计时是否更容易操作计算机图形与RGB颜色空间解耦颜色和亮度,而不是试图模仿人类感知或实现亮度不变。

脱色[2]的目的是保持和加强颜色对比当转换成灰度时。设计了一些算法同样的目的,但不像其他脱色有线性时间像素数量的复杂性。Cadik[13]有119名受试者对脱色处理后的图像进行主观评价研究对象给它的总分是最高的,与其他六项相比方法。在质量上,脱色保留了颜色的对比度自然图像较好;然而,它并不歧视分类之间的相关和不相关的细节的,算法首先转换为YPQ颜色空间,其中Y通道几乎等于亮度,然后表示灰度图像作为这些的分段线性映射通道及其饱和度。这个算法有点复杂,所以我们不提供实现细节。

我们还评估了伽马校正形式的强度,亮度,值、光泽、脱色,表示强度0、亮度0、分别为Value0、Luster0和Decolorize0。在所有情况下都是标准使用伽马校正函数。这不是执行闪烁,流明和亮度,因为它们有纠正固有的伽玛的形式。

三原色

脱色

价值

亮度

强度

光泽

线

明度

亮度

图1所示。颜色-灰度算法的定性比较。(2)石原慎太郎第三版,视觉正常的人可以看到数字29,而视觉红绿不足的人可以看到数字70;(3)一种结满红色浆果的绿色灌木;和(4)太平洋的图片。所有的图像显示伽玛校正,使细节不是过于黑暗,除了闪烁,流明,和轻。颜色面板包含完全饱和的颜色,其值、强度和光泽转换为相同的灰度;然而,人类并不认为这些颜色具有相同的亮度,这是由亮度和亮度捕捉到的特征。石原慎太郎的石原慎太郎的石原慎太郎的石原慎太郎的石原慎太郎的石原慎太郎的石原慎太郎的石原慎太郎的石原慎太郎的石原慎太郎的石原慎太郎的石原慎太郎的石原慎太郎的石原慎太郎的石原慎太郎的石原慎太郎的石原慎太郎。水果图像中也存在同样的颜色对比度退化模式,在一些方法中,水果越来越难以与叶子区分开来。

doi:10.1371 / journal.pone.0029740.g001

图像描述符

我们的实验使用四种描述符类型:SIFT[14],SURF[15]几何模糊[16],局部二进制模式(LBP) [17]。我们的目标不是确定哪一个描述符的工作效果最好,但要看看转换的方法即颜色到灰度在描述符类型之间是一致的。每个这些局部描述符在图像中是从多个空间位置提取的,这个空间信息被图像使用识别框架,如下一节所述。之前提取描述符,每个图像被调整大小使其最小维度128,另一个维度相应地调整为保持图像的高宽比。我们选择标准设置每个描述符类型。

SIFT是一种流行的特性描述符,在照明中[]14它对变化非常健壮。SIFT描述符在当地社区计算是根据梯度计算的方向直方图加权梯度大小。我们提取128-使用带有a的9* 9像素空间容器的维度描述符且采样密度为5个像素。我们使用VLFeat工具箱[18]中提供的密集SIFT实现。大约500个描述符是按图像生成的。

SURF[15]是一个受SIFT启发的旋转不变描述符,但它使用哈尔小波代替图像的梯度来快速识别兴趣点并生成特性。a的特点兴趣点是哈尔小波响应的和。我们使用OpenSURF实现[19],有五个八度,一个黑体,阈值为,和一个“扩展的”128维表示。SURF为每张图像生成大约100个描述符。

通过应用提取几何模糊(GB)[16]描述符,一个空间变化的模糊到定向边缘通道,与模糊从每个描述符的中心数量增加。像SIFT,GB描述符包含邻域信息。我们使用标准参数,则描述符的计算值为300且随机采样点。该算法每个图像生成300个204维描述符

额外的细节见[16]。

LBP[17]描述符用于纹理和人脸的识别。与我们使用的其他描述符不同,它们不是直接操作图像的梯度或边缘类特征。图像的像素被用来创建一个局部直方图

“二进制模式”,它被量子化成一个58维的特征向量。我们使用LBP的VLFeat[18]实现且单元格大小为12像素,我们在3处计算LBP描述符图像尺度(1,1/2,1/4)

将它们连接在一起形成用174 -维表示。大约有150个描述符是生产/形象。LBP是单调的局部不变量来增加亮度的变化。

图像识别框架

朴素贝叶斯最近邻(NBNN)框架[3]完全依赖于个人的描述符辨别能力,使其成为评估颜色到灰度算法的最佳选择。NBNN假设每个描述符在统计上是独立的。(朴素贝叶斯假设)。给一个新的图像Q与描述符,到每个点的距离为每个类别C计算描述符的最近邻居。这些距离被选择给每个类别其中一个和最小的总数。假设所有的训练图像都有NBNN的描述符提取和存储,总结为:

1.计算描述符,图像Q

2.对于每个C,计算C中每个的最近邻:

3.分类:

在[3]中, 式中为描述符,是的归一化位置和调节描述符对位置的影响。我们对Barnard等人描述的数据集使用。下面,因为它显示了大量的旋转变化。我们对于其他数据集使用。

每个类别使用15个训练实例即SIFT描述符,Boiman et al.[3]报道了实现准确度,SIFT强度0结果为。Boiman等人他们使用的方法没有报告是哪种灰度。

结果

我们在三个领域进行识别实验:(1)人脸(AR Face数据集[20]),纹理(CUReT[21]),对象(Barnard et al.[22]和Caltech 101[23])。示例图片除AR外的所有数据集如图2所示。AR图像包括没有遵守公共科学图书馆的隐私指南。

在计算训练描述符之后,我们减去它们的平均值。然后对AR应用零相位增白(ZCA),CUReT和Barnard等人通过数据集来诱导各向同性协方差[24]。对于Caltech 101,主成分分析增白是用于将维度减少到80,至少保持不变所有描述符类型的85%的方差。这个数字是根据内存和速度限制进行选择通过NBNN,当对其他数据集做这个的时候,对最佳性能的相对影响可以忽略不计。算法与使用ZCA增白进行比较。最后,描述符被规范化为单位长度。这些步骤是在测试过程中应用于描述符。

图2.示例数据集

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[609439],资料为PDF文档或Word文档,PDF文档可免费转换为Word

您需要先支付 30元 才能查看全部内容!立即支付

课题毕业论文、开题报告、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。