基于组稀疏回归的多视图面部表情识别外文翻译资料

 2022-11-13 16:34:52

英语原文共 15 页,剩余内容已隐藏,支付完成后下载完整资料


基于组稀疏回归的多视图面部表情识别

郑文明

摘要

本文提出了一个新颖的多视图面部表情识别方式。不同于以前大多数使用一个视图的面部特征向量的面部表情识别方法,我们将多视图面部特征向量合成,并将它们结合起来以实现目标。在提取面部特征时,我们使用多级尺寸的网格分割每一个面部图形为不同子区域,再从每个子区域中提取特征。为了处理表情的预测,我们提出了GSRRR模型来描述多视图面部特征向量和与之对应的表情标签向量之间的关系。GSRRR的组稀疏使我们能自动选择最佳的区域,即对表情识别有最大贡献量的面部子区域。为了解决GSRRR的优化问题,我们提出了一种使用不精确的ALM方法的重要算法。最后,我们在BU-3DFE和Multi-PIE的面部表情数据库上都做了扩展实验,以此来评估提出的新方法的识别能力。这些实验的结果证明,与旧方法相比,我们提出的方法识别表情的能力更好。

1介绍

人脸面部表情图像的表情识别已经成为电脑图像和模式识别最流行的研究之一。使用面部表情识别一个最普遍的方式就是将面部图像分类成各种不同的基本表情,比如高兴、悲伤、厌恶、惊讶、害怕和生气等等(由Ekman和Friesen定义)。总之,面部表情识别方法可以大致分为两类,即基于分类器的方法和基于回归的方法。以前的方法通常是选择一套面部特征向量来训练一个分类器或其他的线性分类器,支持向量设备,或无压分类器,然后在基于这些的测试面部图像中提取出表情的种类。不同于基于分类器的方法,回归方法用的不是基于训练一个分类器的。作为一种选择,它的目标在于建立一个回归模型从而将面部表情特征向量和对应的类标签向量之间的关系呈现出来。由于表情标签向量描述的是面部表情的全部种类,所以容易获得相对应的基于被给予的测试面部图像表情种类。关于面部表情识别方法的文献综述,可以在[5]和[6]中看到。

尽管在过去的几十年中人们已经广泛地探索了面部表情的识别问题,但是先前大多数的方法是基于正面或接近前面的面部图像的,并且非正面面部表情识别问题在很大程度上仍未被探索。与正面面部表情识别问题相比,非正面面部图像的表达识别更具挑战性,因为它需要处理面部遮挡问题,非正面脸部对齐和非正面脸部准确定位问题。尽管如此,非正面脸部表情识别研究已经吸引了许多研究人员进入这一领域,并且在过去几年中取得了一些成功的工作,比如[7],[8],[9],[10],[11],[12],[13],[14],[15],[16],[17]。一些实验结果,如[7],[8],[9],表明,达到最佳平均表达识别性能的最佳头部姿势可能是非正面的。Moore和Bowden最近的研究[15]进一步表明,每个面部表情对应的最佳头部姿势将是取决于特征的。

Hu等人进行了第一次处理非正面面部表情识别的尝试。详情可见于[7]。作者使用了围绕眼睛,眼眉和嘴巴的38个面部标志点的2D位移作为面部特征。然后,他们使用各种分类器来评估用于提取特征的面部表情识别准确度。他们在BU-3DFE面部表情数据库[18]上的实验表明,当面部视图固定在45度时,实现了最低的平均错误率。在[8]中,作者使用了三种特征,即尺度不变特征变换(SIFT)特征[19],局部二值模式(LBP)特征[20],以及高斯直方图(HOG)特征[21],去分别研究多视图(0°,30°,45°,60°和90°)面部表情识别问题。实验结果表明,当利用具有SIFT特征(SIFT LPP)的局部保持投影(LPP)方法[22]时,头部姿态为30°时达到最低平均误差率。郑等人[9]也使用SIFT特征来研究非正面视图面部表情识别。研究与[8]类似,生成五个对应的偏转面部视图的2D面部图像,并且从83个界标点提取一组SIFT特征以表示每个面部图像。他们的实验表明,当头部姿势为45°时,可以获得最低的平均错误率。Rudovic等人[14],[17]提出了一种姿势不变的方法来处理非正面面部表情识别问题。在该方法中,从每个非正面头部姿势定位39个界标点,然后通过耦合缩放高斯过程回归(CSGPR)模型归一化到正面。最终基于标准化的39个界标点进行面部表情识别。

最近,Moore和Bowden [15]使用基于区域的面部特征来研究多视图面部表情识别问题。作者将每个人脸图像划分为一组网格区域,然后将LBP [20]算子应用于每个子区域以提取LBP特征。所有LBP特征最终连接成一个高维特征向量,以表示相应的面部图像。将在BU-3DFE和卡内基梅隆大学(CMU)Multi-PIE [23]数据库上进行的实验用于评估表情识别的最佳头部姿势。实验表明,对于某些面部表情,在非正面头部姿势中实现了最佳的平均识别准确度,并且有些面部表情的最佳头部姿势是取决于特征的。

根据Ekman等人开发的面部动作编码系统(FACS)[24],眼睛和嘴巴周围的面部区域比脸部的其他区域包含更多的动作单元。因此,这些面部区域可以对表情识别做出更多贡献,并且选择与这些面部区域相关联的面部特征对识别面部表情将更有利。这种认识促使我们提出了面部特征提取的面部区域选择方法。另外,面部图像的多个视图中的每一个视图仅包含3D面部模型的部分面部信息,因为2D面部图像仅是3D面部模型到特定面部视图的投影。因此,与不同面部视图相关联的面部图像中涉及的面部信息将不相同。因此,结合所有多视图面部特征在表情识别方面比仅使用单个面部视图的面部特征更有帮助。正是这种认识激发了我们提出一种新的多视图面部表情识别方法。

受上述两种认识的启发,在本文中,我们提出了一种新颖的多视图面部表情识别方法。与之前的多视图面部表情识别方法相比,该方法主要关注以下两个方面:(1)旨在利用与所有面部视图相关的面部特征来处理表情识别,其中多视图面部特征是通过内核简约回归(KRRR)模型[29]通过一个面部视图的特征合成的; (2)它旨在同时处理面部区域选择和表情识别的问题。为了应对面部区域选择,已经成功用于许多机器学习算法的稀疏学习技术,如我们将采纳稀疏主成分分析(SPCA)[25]或稀疏降阶退化(SRRR)[26]。为此,我们提出了一种组稀疏降阶退化(GSRRR)模型来描述多视图面部特征向量与对应的表情标签向量之间的关系。与SRRR方法[26]相比,SRRR方法是传统的降阶退化(RRR)[27]模型的扩展,是用于处理变量选择的,GSRRR的一个主要特征在于组变量选择能力。从这个意义上讲,SRRR可以看作是GSRRR的一个特例,即其中每个组只包含一个变量。为了解决GSRRR优化问题,我们提出了一种有效的迭代算法来交替更新GSRRR的回归系数矩阵。每个迭代都包含两个次优化问题,其中第一个可以当作正交Procrustes问题计算,第二个可以通过增广拉格朗日乘数(ALM)[32]方法求解。

图1给出了多视图面部表情识别系统的概述,该系统包含以下四个主要部分:

  1. 特征提取和预处理。该部分主要侧重于从多视图面部图像中提取面部特征。本部分将研究两种面部特征(稀疏SIFT特征和LBP特征)。特征提取过程中使用线性判别分析(LDA)方法[28]来减少特征向量的维数。然后将属于同一面部图像的所有变换特征向量连接成一个矢量以表示面部图像。
  2. 多视图面部特征向量合成。本部分重点介绍多视图面部特征向量的合成。基本思想是使用KRRR模型来描述不同面部视图的面部特征向量之间的关系。在KRRR模型中,响应是另一个面部视图对应的特征向量,且预测变量来自给定面部视图的特征向量。通过利用KRRR模型,使来自任何一个给定面部视图的特征向量都可用于估计所有其他面部视图的特征向量。

图1.基于GSRRR的多视图面部表情识别系统的概述。

(a)系统的训练阶段,包括训练面部特征提取,多视图训练面部特征向量合成和GSRRR模型训练。

(b)系统的测试阶段,包括测试面部特征提取,头部姿势估计,多视图测试特征向量合成和表达分类。

  1. GSRRR模型培训。在此阶段,GSRRR模型用于描述表情类标签向量与相应的合成多视图面部特征向量之间的关系。提出了一种学习算法来求解GSRRR的回归系数矩阵。
  2. 多视图面部表情识别。本部分重点介绍用于测试面部图像的表情识别。测试面部图像时,我们首先提取面部特征然后进行头部姿势估计,其中LDA和线性分类器就用于此目的。在获得各头部姿势的视图后,我们基于测试面部特征向量以合成多视图面部特征向量,并将其用作GSRRR模型的模型预测器。最后,计算表达类标签向量对应的模型响应,并且可以基于它获得测试面部图像的表情类别。

本文的其余部分安排如下。在第2节中,我们将提出面部特征提取方法。在第3节中,我们将详细说明多视图面部表情识别方法。在第4节中,我们提出了GSRRR模型,并提出了一种有效的算法来求解GSRRR的最优回归系数矩阵。实验在第5节中介绍。最后,第6节总结论文。

2面部特征提取

特征提取在面部表情识别系统中起着至关重要的作用。通常,面部表情特征可以大致分为几何特征和外观特征[5]。获得几何特征的最常用方法之一是使用面部标志面部点的坐标或它们之间的位移作为面部特征。此方法旨在从皮肤纹理捕获表情信息,这种外观特征可以从整个面部图像或一些特定面部区域中提取。

图2.面部区域划分方法的示例,其中每个面部图像具有120的大小120.从(a)到(d),使用面部图像将面部图像划分为1,4,16和64个面部子区域。网格尺寸分别为和。

在[9]的初步工作中,我们提出使用从面部图像的83个界标面部点提取的稀疏SIFT特征作为面部特征,这可以看作是几何特征和外观特征的混合。在BU-3DFE数据库的实验证实了与文献中报道的大多数其他特征形成对比,稀疏SIFT特征的高识别准确性。然而,应该注意的是,稀疏SIFT特征的提取需要精确的地标面部点位置,这对于非正面面部图像仍然是一项具有挑战性的工作。Moore和Bowden [15]在多视图面部表情识别中提出了基于区域的特征提取方法。他们将整个面部图像划分为一组网格,然后从每个网格区域提取面部特征,即LBP。所有面部特征最终被连接成高维特征向量以代表面部图像。避免了特征点位置,这使得该方法非常适合于多视图特征提取问题。

在本文中,面部特征提取采用基于区域的方法。为了提取面部特征,我们首先将每个面部图像标准化为像素的大小。然后分别使用尺寸为和的四种网格将每个面部图像分割成一组面部区域。图2展示了面部区域划分方法的示例,其中,图,,和对应于尺寸为和的网格。通过使用网格,面部图像被分成1,4,16和 64个面部区域。因此,每个面部图像对应于85个面部区域。对于每个面部区域,有8个像素的邻域和2个像素的半径的标准局部均匀二进制图案()[20]可用,这使得每个面部区域有 LBP对应的特征向量。因此,从每个面部图像中提取的总共有个特征。

除了提取面部特征之外,我们还构建了一组类标签向量来指定面部图像的表达信息。每个类标签向量表示为一个c维虚拟向量,这里表示表情类别的数量。对于每个类别标签向量,测量项是表情的相关面部图像的关系等级。公式上,假设是来自第类的面部图像,且是相应的类标签向量。然后,的第项可以表示为:

(1)

3基于GSRRR的多视图面部表情识别方式

在本节中,我们将介绍我们的多视图面部表情识别方法。在图1中,我们提出了表达识别系统的概述,从中我们可以看到系统可以分为训练阶段(图)和测试阶段(图)。在下文中,我们将详细说明培训和测试阶段。

3.1 训练阶段

多视图面部表情识别系统的训练阶段包括三个主要步骤,即面部特征提取和特征向量的降维,多视图面部特征合成和GSRRR模型学习。

3.1.1 面部特征提取和降维

用表示来自V个面部视图的VN训练面部图像,其中N表示每个面部视图的面部图像的数量。为了达到面部特征提取的目的,使用多尺度网格尺寸将每个面部图像划分为个面部区域,其中我们用表示个面部子区域。然后,对于每个面部区域,我们将算子应用于每个子区域并获得59维特征向量。

在提取面部特征之后,我们使用LDA方法来减少属于相同面部区域和面部视图的特征向量的维度。具体来说,用表示与第j个面部区域和第i个面部视图相关联的一组训练面部特征向量。通过将LDA应用于此特征向量集,我们获得了变换矩阵。将该LDA变换矩阵应用于面部特征向量,我们获得以下变换的面部特征向量:

其中的维数为,这里是表达式类别的数量。

3.1.2 多视图面部特征合成

多视图面部特征合成的基本思想是使用当前面部视图的面部特征向量来估计其他面部视图中的面部特征向量。假设我们给出的面部特征向量集与第个面部视图相关联。然后,我们的目标是估计与其他V - 1面部视图相对应的面部特征向量。这个目标的主要目的是找到特征向量映射,每个映射将面部向量从当前面部视图映射到其他面部视图之一。

让成为面部特征向量的串联,且是对应于第个面部视图的特征矩阵。如果我们假设第个视图的面部特征向量映射到第个视图的映射是线性映射,则该映射等效于矩阵变换。令为变换矩阵,其将特征矩阵从第个视图变换到第个视图,使得和之间的最小平方误差最小化。公式上,这个转换矩阵可以表示为以下最小二乘回归问题的解:

, (2)

其中称为回归系数矩阵。另一方面,如果映射是非线性的,那么我们可以在(2)中使用上述回归模型的内核扩展来解决这个问题。在这种情况下,回归模型可以表示为

, (3)

其中是非线性映射,它将输入特征向量从输入特征空间映射到高维再生核Hilbert空间(RKHS) [34],即

, (4)

和是新回归模型中的回归系数矩阵。在核特征空间中,矢量的乘积,例如和,可以通过核函数计算,这通常被称为核心技巧[34]。

通过对响应变量之间的回归系数进行排序限制,可以进一步改进(3)中的回归模型[26]。假设的等级是。然后我们可以将分

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[18260],资料为PDF文档或Word文档,PDF文档可免费转换为Word

您需要先支付 30元 才能查看全部内容!立即支付

发小红书推广免费获取该资料资格。点击链接进入获取推广文案即可: Ai一键组稿 | 降AI率 | 降重复率 | 论文一键排版