基于深度卷积网络的多分类法在头部姿态估计中的应用外文翻译资料

 2022-11-25 15:16:59

英语原文共 11 页,剩余内容已隐藏,支付完成后下载完整资料


基于深度卷积网络的多分类法在头部姿态估计中的应用

Ying CAI1,2, Meng-long YANGDagger;3, Jun LI2

(1四川大学计算机科学学院,成都610065)

(2四川农业大学信息工程学院,雅安625014)

(3四川大学航空航天学院,成都610065)

摘要:目的:利用深度卷积网络的优势,解决头部姿态估计中各种关键难点,并提高分类正确率。创新点:将人工智能的新兴方法深度卷积网络应用在头部姿态估计问题上,根据姿态估计的具体问题设计一套裁剪人脸的方法,改进卷积网络模型、优化参数,并取得了大幅度的效果提升。方法:首先,因为深度卷积网络算法对图像旋转、尺度、光照等的鲁棒性,图像预处理阶段仅对图像做简单裁剪(图3),并对比了各种裁剪法对分类正确率的影响(表1)。然后,在训练阶段使用适合姿态估计的数据处理策略,通过少量偏移裁剪框和轻微变化图像尺度来获得更多的训练数据以提升效果,在三种公开数据库上报告了实验结果并与目前取得最好效果的三种方法做了对比(表4)。最后,设计两种不同深度的网络,对比网络深度对效果的影响(表2)。结论:针对头部姿态估计问题,提出了切实有效的新解决方案,并取得了明显改善的效果。

关键字:头部姿态估计;卷积神经网络;多分类;

1简介

头部姿态估计的问题在计算机视觉领域得到了极大的关注。头部姿态估计的鲁棒算法对于诸如视频监控,人机交互,视频会议和面部识别等许多应用都是有帮助的。然而,由于身份之间的外观变化,复杂的照明,不同的变化背景等因素,它本质上仍然是一个具有挑战性的任务。许多方法使用分类或回归来解决姿态估计的问题。在本文中,我们将头姿态估计的问题作为分类问题,因为我们认为在具有相同姿态的图像中存在不变的基本特征,并且这些特征适合于姿态分类。此外,我们发现深度卷积神经网络(DCNN)在许多图像识别任务上表现良好,因为空间拓扑和位移不变的局部特征能够被很好地捕获(LeCun等人,1998)。我们认为适当的DCNN架构和有效的图像预处理将在头部姿态估计上具有很好的效果。

Murphy-Chutorian和Trivedi在2009年总结了头姿势估计的问题,Tang于2014年总结了头姿姿态估计的不同算法。头部姿态估计的先前方法可以大致分为基于模型的方法和基于外观的方法。

基于模型的方法通常使用几何特征。王和松(2007)利用六个关键特征点(两个外眼角,两个内眼角和两个嘴角)估计姿势,并假设两个眼角和嘴角大致在同一个地方。当模板集很大时,其他有效的基于模型的方法也引起了研究人员关注。例如,Lanitis等人 (1995)利用主动形状模型(ASM)提取面部特征,并采用贪心搜索来匹配特征点。这些技术通常需要很多功能地标。

基于外观的方法使用从训练数据建模或学习的特征包括。距离度量学习(Wang et al。,2008),子空间分析(Fu and Huang,2006)和多维嵌入(Raytchev et al。,2004)是用于提取外观特征的流行方法。 Huang et al。(2010)使用Gabor特征为基础的随机森林辅助线性判别分析(LDA)获得97.23%的分类精度。

有一些混合方法。比如Storer等人(2009)使用3D变形模型(3DMM)作为头部姿态估计。 一个变形的面部模型通过基于统计量的向量空间来表示脸的样品面。 它是有效的,但是耗时太多。

从另一个角度来看,大多数头姿态估计算法有两个步骤。 第一步是特征提取。 第二步估计头部姿势根据获得的特征。 麦子 (2006)提出了本地Gabor二进制模式(LGBP)的特点,并采用径向基函数(RBF)内核支持向量机(SVM)分类估计姿势。 他们的分类准确率达到97.14%。

有关神经网络研究表明,如果有很好的功能,标准全连接的多层网络可以作为优秀的分类器。然而,DCNN可以完成功能是在在综合体系结构中提取和分类,并且表现优异,因为DCNN是学习了移位不变局部特征的类型,并增加了输入的无关变异性的鲁棒性。网络将图像的原始像素作为输入可以最好地利用纹理上下文信息,并且以综合方式学习低级特征和高级别表示。深层结构的较高层的全球高层特征可以有效地处理具有挑战性的图像,例如,当本地区域的低层特征不明确或损坏时(Sun等,2013)。此时,卷积网络将是能够更好的估计方法头部姿势。通过培训网络,特征提取滤波器被一起优化分类分量的权重,以获得令人满意的分类精度。

2 卷积神经网络

福岛公司是第一个考虑卷积神经网络被应用的,Neocognitron(Fukushima,1980)。 然而,最近才真正承认卷积网络的潜力。

卷积神经网络已成功应用于诸如手写识别(LeCun等,1989; 1998),视觉文献分析(Simard et al。,2003),汽车检测(Matsugu和Cardon,2004)等视觉应用中, (Luo et al。,2012),图像分类(Krizhevsky et al。,2012)和场景解析(Farabet等,2013)。 使用深卷积网络,Ciresan等人 (2012)显着改善了一些标准分类数据集的现状。

卷积神经网络建立了局部接受领域,权重共享和空间子采样(LeCun和Bengio,1995)。 与浅层神经网络不同,卷积优胜者所有神经元的小局部接受场产生大的网络深度,导致许多稀疏连接的神经层产生,如在视网膜和视觉皮层之间的猕猴中发现的。 卷积网中的每个层由组合在平面中的单元组成,称为特征图。 功能图中的所有单位共享相同的重量。 权重共享可以减少参数的数量并有助于泛化。 卷积神经网络的另一个特点是空间子采样层。 目的是实现轻微扭曲的鲁棒性,起到与视觉中复杂细胞相同的作用卷积网络训练的目的是最小化一组目标输出中的均方误差(MSE)。 我们可以使用公式计算MSE。 (3)。 因此,反向传播(BP)算法用于学习过程中的调整权重参数达到目标。 以下公式更新神经元的重量:

omega;(t 1) = omega;(t) eta;delta;(t)x(t), (1)

其中eta;是学习率,x(t)是输入神经元和delta;(t)是神经元的误差项。

3,提出的方法

3.1 DCNN架构

这里讲的用于训练的卷积网络架构(图1)。它与众所周知的LeNet5(LeCun等人,1998)类似,但是使用更多的特征图,不同的汇集和部分连接,因为我们的输入面部图像比LeNet5的输入数字和字符图像更复杂。六层分别命名为C1,S2,C3,S4,C5和F6。字符“C”表示卷积层,S层是子采样层,F层是完全连接的层。网络的输入是32times;32像素的灰度图像。第一层C1具有10个尺寸为28times;28的特征图,并使用10个具有5times;5尺寸的卷积内核。每个特征图中的每个单元连接到输入中的5times;5邻域。 C1中的相邻单位从输入上的邻域输入重叠4像素的输入。下一层S2是2times;2子采样层,具有10times;14times;14的特征图。每个地图中的每个单位是相应特征图中的2times;2邻域的加权最大值C1。 S2中的相邻单位在C1中的相应地图中从连续的,不重叠的2times;2邻域输入。它是一个所谓的池层。 C3卷积为20times;10times;10的特征图。每个特征图中的每个单位都是

在S2的特征图的子集中的相同位置处被覆盖到几个5times;5个邻域。不同的C3映射根据图中所示的矩阵选择不同的S2子集。 2,打破对称,强制地图提取不同的辅导功能。通过较少的连接强制信息将使连接变得更有意义。所以这是S2和C3之间的部分连接,有136个可以使用5times;5大小的卷积内核学习。 S4是子采样层具有2times;2次采样比,其中包含20个尺寸为5times;5的特征图。 C5是卷积层,具有120个尺寸为1times;1的特征图,并且使用大小为5times;5的2400个卷积核。每个C5地图从S4的所有特征图中输入20个不同的卷积内核。 F6是输出层。它有7个输出(因为有7个类标签),并且完全连接到C5作为分类层。注意事项。通过更少的连接强制信息将导致连接变得更有意义。所以这是S2和C3之间的部分连接,有136个可以使用5times;5大小的卷积内核学习。 S4是子

采样层具有2times;2次采样比,其中包含20个尺寸为5times;5的特征图。 C5是卷积层,具有120个尺寸为1times;1的特征图,并使用2400卷积内核大小5times;5。每个C5地图从S4的所有20个特征图中输入,并使用20个不同的卷积内核。 F6是输出层,它有7个输出(因为有7个类标签),并且完全连接到C5作为分类层。如图。 图2示出了通过每个C3特征图组合的S2特征图集合,其中列指示C3中的特征图,行表示在S2中的特征图,符号*表示现有连接。

我们在网络中选择max-pooling进行子采样。 虽然建立局部不变性换档可以用任何对称的汇集操作进行,Scherer等人 (2010)发现,最大汇集可以导致更快的收敛,选择优越的不变特征,并提高泛化。 最大池和平均池之间的差异在于平均操作被替换通过最大操作。 我们使用古典梯度BP算法和LevenbergMarquardt算法的随机版本,其对角线近似为Hessian(LeCun和Bengio,1995),以完成优化。

3.2图像预处理

众所周知,适当的图像预处理可以提高分类的准确性。 由于DCNN的强大的学习能力,算法具有温和度和位置变化的鲁棒性。 所以我们不需要精确的面部作物只要我们确保脸部很少包含在内背景。 我们设计一个简单的图像预处理方法。 步骤如下:首先,我们采用最近开发的DCNN面点检测器(Sun et al。,2013)从输入图像中提取五维面部特征点,包括左眼中心,右眼中心,鼻尖,左口角和右口角,严重姿势(偏航姿态大于plusmn;40°或俯仰姿势较大,超过plusmn;30°)将导致轻微的不准确。 幸运的是,准确度足以使我们粗略地计算用于裁剪脸部的矩形框。其次,将鼻尖视为盒子的中心。 我们将从左右拐角到左右角的两端的最大值表示为垂直方向,即Ydown,从左右眼睛到鼻尖的两个距离在垂直方向上的最大值为Yup,水平方向的距离 从左眼罩到鼻尖为Xleft,距离右眼中心到鼻尖为Xright。 因此,可以根据以下公式计算面箱的左上角和右下角点:

(2)

其中Xnt和Ynt是nosetip的坐标,Xlt和Ylt是框的左上角点的坐标,Xrb和Yrb是框的右下点的坐标,Nu,Nd,N1和Nr是比例系数。 我们可以调整通过改变这些系统,盒子的大小。然而,当严重的姿势导致Xright和Xleft中较小的一个小于较大的一角零的1/6时,较小的一个将因为太小而不能使用。在这种情况下,我们用上述公式中M·distance_eyes替换XrightNr和XleftNl中较小的一个,其中distance_eyes是前脸图像中两个眼睛中心的水平距离,M是比例系数。 在不同的分辨率数据库之间使用相同的比例系数(Nu,Nd,Nl,Nr和M),我们可以保持均匀的作物风格。 现在我们可以从中挣脱脸基于面箱的原始输入图像。 通过这种方法,我们可以保持个体相对性面部特征比例。 这有助于提取优秀的功能。 该方法的图形如图1所示。 3

最后,我们将图像的尺寸统一到32times;32,并将图像的所有像素归一化为零均值和单位方差,这可以加速学习并减少照明的影响(LeCun等,1991)。

3.3训练方法

准备训练图像集是深入学习的重要组成部分。 我们可以参考训练LeNet5中使用的一些策略(LeCun等,1998)来改善神经网络的泛化。 最有效的一个方法是失真,包括尺度,位移,旋转和弹性失真失真迫使神经网络看起来更加密切,在培训模式中更加重要。 另一个优点是扩大训练集。窗体顶端

通过调整两眼中心线之间的水平线,我们可以在滚动方向上去除头部的姿势。图像旋转不适合我们的方法,但是移动和缩放还是有用的我们换面罩(以Sec-3.2)原始图像在四个方向(向上,向下,向左和向右)使用四个移位值(7,10,12和15像素)在CAS-PEAL-R1数据库上分辨率为360times;480。所以,我们可以放大训练集的大小由16倍。我们也放大
面罩的规模。具体来说,我们收缩了使用四个值(3,5,7,10像素)放大脸部框。通过变化的规模,我们可以将训练集放大到8倍仅在训练集上实施。最后,训练集在每个时期以不同的随机顺序通过神经网络,以避免过度修复。

4实验结果

4.1CAS数据库上的七个姿势的实验结果

CAS-PEAL-R1(Gao et al。,2008)是CAS-PEAL面部数据库的一个子集,为了研究目的而发布。 它包含3040个具有不同姿势,表达,附件和照明(PEAL)的1040个人(595名男性和445名女性)的图像。 我们只对姿势子集感兴趣。 CAS相机系统的平台如图1所示。 4.用不同的音调姿势拍摄图像,要求该模型向上看,在相机C4(中间部分)

一个),并向下看。 对于每个相同的方位,他们通过九个相机C0-C8同时捕获九个图像

不同的偏航姿势。 CAS-PEAL-R1仅释放C1-C7拍摄的图像。

我们选择CAS-PEAL-R1的原因在于,深入学习需要大量的训练样本,并且姿态需要准确的姿态注释。 拍摄姿势图片的方法可以确定姿态注释的准确性。 当然,通过不同的相机拍摄的模型比要求模型转过头来更重要。 在所有公共姿势数据库中,CAS是一个很好的选择,因为有效的标本被同时拍摄。 我们只使用音调的图像姿态注释为0,偏航姿势注释(plusmn;45°,plusmn;30°,plusmn;15°,0°)。 七个姿势总

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[26278],资料为PDF文档或Word文档,PDF文档可免费转换为Word

您需要先支付 30元 才能查看全部内容!立即支付

发小红书推广免费获取该资料资格。点击链接进入获取推广文案即可: Ai一键组稿 | 降AI率 | 降重复率 | 论文一键排版