基于peak-piloted的表情识别外文翻译资料

 2022-12-23 15:03:44

英语原文共 18 页,剩余内容已隐藏,支付完成后下载完整资料


基于peak-piloted的表情识别

Xiangyun Zhao Xiaodan LiangLuoqi Liu Teng Li

Yugang Han Nuno Vasconcelos Shuicheng Yan

University of California, San Diego Carnegie Mellon University

360 AI Institute National University of Singapore

Institute of Automation, Chinese Academy of Sciences

xiz019@ucsd.edu xdliang328@gmail.com liuluoqi@360.cn

tenglwy@gmail.com hanyugang@360.cn

nvasconcelos@ucsd.edu eleyans@nus.edu.sg

摘要针对人脸相关识别任务的深度网络训练的目标函数,如面部表情识别(面部表情识别),通常考虑每一个独立样本。在这项工作中,我们提出了一个新的高峰试点深网络(基于峰值主导的面部表情深度网络),它使用具有峰值表达的样本(简单样本)来监视同一类型、同一主题的非峰值表达样本(硬样本)的中间特征响应。表情从非峰值到峰值的演化过程可以隐式嵌入到网络中,实现对表情强度的不变性。提出了一种用于网络训练的特殊反向传播方法——峰值梯度抑制(梯度抑制峰值)。它驱动的非峰值表达样本的中间层特征响应向对应的峰值表达样本靠拢,同时避免反向。这避免了由于非峰值干扰而降了 而导致峰值表达的样本的处理能力降低的问题。广泛比较两个流行的面部表情识别数据集,Oulu-CASIA和CK 证明了基于峰值主导的面部表情深度网络相对于最先进的面部表情识别方法的优越性,以及这两种网络结构的优点以及优化策略。通过对峰值和非峰值的正确定义,表明基于峰值主导的面部表情深度网络是一种通用的体系结构,可以扩展到其他任务样本。这是通过实验验证,显示了最先进的性能对位置不变的人脸识别,使用多层数据集。

关键词:人脸表情识别,峰值引导,深度网络,峰值梯度抑制

1介绍

面部表情识别(面部表情识别)的目的是预测基本的面部表情。快乐,悲伤,惊讶,愤怒,恐惧,(厌恶)从人脸图像,如图所示图1 .近年来,面部表情识别引起了很多研究关注。它可以促进其他与人脸相关的任务,如人脸识别[8]和校准[9]。尽管近年来有了重大进展[10,11,4,12],但面部表情识别仍然是一个具有挑战性的问题。由于以下的困难,首先,如图1所示,不同的受试者经常表现出相同的表达,具有不同的强度和视觉外观。在视频流中,一个表情首先会以一种微妙的形式出现,然后成长为一种强烈的表现潜在的感情。我们把前者称为非高峰,把后者称为高峰表情。其次,同一被试者的峰值表达和非峰值表达在嘴角弧度、面部皱纹、等。通常很难从非峰值的表情图像中捕捉到关键的和微妙的表情细节,这在不同的表情之间很难区分。例如,恐惧和悲伤的非峰值表达与图1非常相似。

惊讶 生气 高兴 恐惧 伤心 厌恶

峰值表情

非峰值表情

图1所示。六个面部表情样本的例子,包括惊讶、生气、高兴、害怕、悲伤和

厌恶。对于每个主题,将显示峰值和非峰值表情。

近年来,在与人脸相关识别任务中,深度神经网络体系结构在神经网络领域表现出了良好的性能,这导致了面部表情识别网络体系结构的引入[4,16]。然而,也有一些重要的限制。首先,大多数方法在学习过程中独立考虑每个样本,忽略了每对样本之间的内在相关性(如简单样本和困难样本)。这限制了学习模型的鉴别能力。其次,他们专注于识别明显可分离的峰表情,忽略最常见的非峰值表情样本,其判别是极具挑战性的。在本文中,我们提出了一种新的峰值引导的深度网络(基于峰值主导的面部表情深度网络)架构,在学习过程中,隐含着从非峰值表达到峰表达的自然演变,从而放大了弱表达之间的细微差别表情,实现对表情强度的不变性。直观地,如图所示,从图2中可以看出,同一主题的峰值和非峰值表情往往表现得非常强弱与视觉有关联(例如,相似的脸部部位)可以互相帮助识别对方。该方法利用峰值表达样本的特征响应(简单样本)来监测非峰值表达样本(困难样本)的响应(样本)同类型、同题材。将得到的非峰值表情映射到相应的峰值表情,将放大它们的临界和细微的细节,便于他们的识别。

惊讶

高兴

图2所示。表达从非峰值表达到峰值表达的演变过程。

原则上,从非峰值到峰值表情的显式映射可以明显的能提高识别。然而,这样的映射很难生成,因为面部特征的细节变化(如嘴角弧度和皱纹)很难预测。我们通过关注高级特性来避免这个问题面部表情的表达,更加抽象和直接相关对面部表情进行识别。特别是,所提出的基于峰值主导的面部表情深度网络对任务进行了优化。(1)特征由非峰值向峰的转化表达和识别面部表情统一。事实上,这是一种通用的方法,适用于许多其他的识别任务(例如人脸识别)都是根据峰和的正确定义来完成的非峰值样本(如正面和侧面)。通过隐式学习进化

从困难的姿势(如侧面脸)到简单的姿势(如近正面脸),它可以提高对这些问题的先验解决方案的识别精度,使它们对姿态变化的鲁棒性更加复杂。

在训练过程中,基于峰值主导的面部表情深度网络获取具有相同类型和来自相同主题的峰值和非峰值表达的图像对。这个映像对被传递几个中间层为每个表情图像生成特征图。然后,最小化非峰值和峰值表达图像特征映射之间的l2 -范数,将表情的演化嵌入到基于峰值主导的面部表情深度网络中框架。通过这种方式,基于峰值主导的面部表情深度网络包含了峰值引导的特性转换与人脸表情识别形成统一的体系结构。基于峰值主导的面部表情深度网络是用一种新的反向传播算法,即峰值梯度抑制算法(梯度抑制峰值)将对非峰值表情实例的特征响应驱动到对应峰值表情图像的响应,但不是相反。这是不同于传统的优化的暹罗网络,这鼓励功能对接近将两幅图像的特征图同等对待。相反,基于峰值主导的面部表情深度网络,重点研究将非峰值表情的特征转化为峰表情的特征。在每次反向传播迭代期间,忽略梯度信息由于峰值图像的表达在l2 -范数最小化特征的差异,同时保持由于非峰值表达。的梯度的识别损失,对于峰值和非峰值的表达图像是相同的,就像传统的反向传播一样。这避免了由于非峰值的影响,使得网络对峰值表达样本的识别能力下降。

总的来说,这项工作有四个主要贡献。1)提出了基于峰值主导的面部表情深度网络架构,利用峰值表达样本的响应,对来自同一个主题的样品(容易样本),监控对同类型非峰值表达(硬表达)样品的响应。峰值控制特征转换和人脸识别的目标,同时对峰值和非峰值表情的表情识别进行了优化。2)提出了一种自适应的反向传播过程梯度抑制峰值,将非峰值表情的响应驱动到对应峰值表情的响应,同时避免相反的情况。3) 基于峰值主导的面部表情深度网络表现为强不变的人脸表情识别,通过有效识别最常见的非峰值表情。4)对几个面部表情识别数据集进行综合评价,即CK [17]和证明了该方法的优越性。它通过最先进的鲁棒面,还证明了对其他任务的泛化了公共多层数据集[1的识别性能。

2相关工作

最近有几次尝试解决面部表情识别问题。这些方法可以分为两类:基于序列的图像和静态图像方法。在第一类中,基于序列的方法[7,1,20,18,21]同时利用了这两种方法,来自视频序列的外观和运动信息。在第二类中,静态图像方法[10,4,12]从图像外观模式中惟一地识别表情。由于静态图像方法比较通用,因此在无论是静态图像还是序列,我们都关注于用于静态图像表达识别的模型。其中包括手工制作的管道和为了表情识别,深度学习方法正在被探索。手工方法依次执行三个步骤:特征提取、特征选择和分类。由于不同优化目标的组合,这可能导致亚最优识别。

最近,在人脸识别任务中,卷积神经网络架构[23,24,25]已经表现优异[26,27,28]。方法,手段对卷积神经网络架构也提出了相应的建议。例如,Yu等人使用了多个深度卷积神经网络s的集成。Mollahosseini等人使用了三个inception构造了用于面部表情识别的卷积[24]。所有这些方法都处理的表情实例,同一主题的不同强度独立存在。因此,两者之间的关系

学习过程中会忽略峰和非峰值的表达。相反,所提出的基于峰值主导的面部表情深度网络学习嵌入从非峰值到峰值表情的演化,从而促进基于图像的表情识别。

3高峰先导深网(基于峰值主导的面部表情深度网络)

在这次工作中,我们引入了基于峰值主导的面部表情深度网络框架,在面部表情识别背景中,它隐学习了进化过程,从非峰值到峰值的表情。如图3所示,基于峰值主导的面部表情深度网络的训练以一对图像作为输入。它由同一类型、来自同一主题的峰和非峰值表情组成。传递此映像,通过几个卷积和全连接层,为每个表情图像生成一对特征映射。为了使非峰值表达图像的特征响应趋近于峰值表达图像的特征响应,将特征差异的l2范数最小化。学习算法优化一个l2范数丢失的组合和两个丢失识别与每个表情图像。由于其在多个人脸识别任务中的出色表现,所以GoogLeNet作为基本的网络架构广受欢迎。在GoogLeNet中,过滤器是受限于尺寸的大小(1times;1、3times;3和5times;5)。总的来说,就是GoogLeNet在两个卷积层和两个最大池化层之后实现九个inception结构。然后,第一个全连接层产生中间特征

具有1024个维度,第二个全连接层为6个表情标签生成标签预测。在测试过程中,基于峰值主导的面部表情深度网络以一张静止图像作为输入,输出所有六个表情标签的预测概率。

图3所示。基于峰值主导的面部表情深度网络培训阶段说明。在训练中,基于峰值主导的面部表情深度网络取双峰和非峰值表情图像作为输入。在经过几个卷积之后。在全连通层中,可以分别得到峰值和非峰值表达图像的中间特征图。优化了这些特征图之间的l2范数损失,使非峰值表达图像的特征向峰值表达图像的特征靠拢。通过联合优化l2范数损失和识别两幅表情图像的损失,可以更新网络参数。在反向传播过程中,利用峰值梯度抑制(梯度抑制峰值)。

3.1网络优化

基于峰值主导的面部表情深度网络的目标是学习从非峰值到峰值表情的演化过程,以及识别基本的面部表情。我们将训练集表示为S ={,i= 1,.... N},其中样本表示非峰值的人脸表情,对应峰值的人脸表,和为对应的表情标签。为了用峰值表情实例的特征响应来监控非峰值表情实例的特征响应,用一个损失函数,包括l2 -范数之间的差异特征响应到峰值和非峰值表情实例。利用交叉熵损失对两幅表达图像的识别进行了优化。总的来说,基于峰值主导的面部表情深度网络的损失是

= (1)

其中,J1、J2和J3分别表示特征差异的l2范数和两种交叉损耗进行识别。注意,峰值引的特性转换是非常通用的,可以应用于任何层生成的特性。我们表示Ω的套层采用基于峰值主导的转换,和isin;Ω作为第j层的特征映射。为了减小训练数据尺度变化的影响,在计算差的L2范数之前,对特征fj进行L2的归一化。更具体地说,特征映射fj被连接到一个向量中,这个向量是L2规范化的。在第二项和第三项中,L表示真值标签与所有标签的预测概率之间的交叉熵损失。最后一个正则化项用来惩罚网络参数w的复杂度。由于网络中嵌入了从非峰值到峰值的表达式演化过程,后者学习了一种更鲁棒的表达式识别器。

3.2峰值梯度抑制(梯度抑制峰值)

为了训练基于峰值主导的面部表情深度网络,我们提出了一种特殊用途的反向传播算法

的优化,而不是传统的直接应用随机梯度下降[13][29],目标是驱动的中间层响应,非峰值表情实例指向对应的峰值表情实例,同时避免相反的情况。在传统随机梯度法(随机梯度法)下,

网络参数将被更新

W =

=

- (2)

其中gamma;是学习速率。提出了峰值梯度抑制(梯度抑制峰值)学习算法

使用的是更新

W = W

- (3)

  1. 与(2)的区别在于梯度是由特征响应引起的峰值表达图像,被认为在(3)中。在这种方法中,被抑制的梯度峰值将非峰值表情的特征响应驱动到峰值表情的特征响应表达,尽管不是一个最陡的下降方向,但不是相反的。在附录中,我们说明了这并没有预防学习时,由于权重更新的方向是梯度抑制峰值整体下降的损失方向。

4实验

为了评估基于峰值主导的面部表情深度网络,我们对两个流行的面部表情识别数据集进行了广泛的实验:CK [17]和Oulu-CASIA[18]。为了进一步说明基于峰值主导的面部表情深度网络泛化为在其他识别任务中,我们还对其在人脸识别中的表现进行了评价公共多层数据集[19]。

4.1面部表情识别

训练。基于峰值主导的面部表情深度网络采用GoogLeNet[24]作为基本网络结构。峰值特征转换只在最后两个完全连接的层中使用。其他配置,使用各种卷积层上的峰导特征变换也被报道。因为对深层网络进行培训是不可行的,在可用的小型面部表情识别数据集中,我们对GoogLeNet[24]进行了大规模人脸的预训练识别数据集,CASIA W

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[20817],资料为PDF文档或Word文档,PDF文档可免费转换为Word

您需要先支付 30元 才能查看全部内容!立即支付

发小红书推广免费获取该资料资格。点击链接进入获取推广文案即可: Ai一键组稿 | 降AI率 | 降重复率 | 论文一键排版