基于深度网络的人脸情感自动识别与分类方法外文翻译资料

 2022-12-19 18:06:52

英语原文共 5 页,剩余内容已隐藏,支付完成后下载完整资料


基于深度网络的人脸情感自动识别与分类方法

摘要:人类情感的识别一直是人机交互领域中一个具有挑战性的课题。为了使人类和计算机之间有更自然的互动,计算机必须能够识别、区分和响应人类的情感。此外,人脸表情自动识别(FER)仍然是计算机视觉中一个具有挑战性和令人关注的问题。尽管在各种方法的发展过程中都做了很多努力,但目前的方法在处理野外拍摄的未见图像或照片时却缺乏普及度。本文试图设计一个能够通过人脸表情识别陌生人情绪的人工智能系统。本文的网络由三个卷积层组成,每个卷积层后面是max pooling和ReLU。该网络在FER2013数据集上进行训练,并在RaFD数据集上进行测试,从而为网络提供了广泛的训练图像,从而克服了未知人脸识别的基本问题。最后一个模型的针对性在一个实时视频应用程序中得到了描述,该应用程序可以根据用户的面部姿态即时返回用户的情绪。该方法的准确度为68%,优于以往的先进方法。这些结果为使用不同的数据集进行培训和验证的重要性提供了重要的见解。

关键词-人类情感识别,深度神经网络,CNN,跨数据集验证。

  1. 简介

自从计算机问世以来,科学家和工程师们就一直在思考可以与人类相媲美的人工智能系

统。在过去的十年里,计算能力的增长为计算机高速学习的发展提供了帮助,同时互联网为训练计算机提供了大量的数据。这两项发展推动了对高智能化的自学习计算机的研究,其中神经网络是最可靠的技术。

1.1.背景

使用神经网络的人工智能目前的主要应用之一是在照片和视频中的人脸识别技术。大多数技术首先处理视觉数据,然后搜索人脸的一般模式。人脸识别在生物识别、信息安全、执法、智能卡等领域有着广泛的应用。它大范围的被执法人员和人员管理方面用于的监视。目前其他的类似应用包括谷歌街景中的人脸自动模糊,以及Facebook照片中的朋友自动识别和分类。人脸情感识别是这一领域的一个重要发展。除了识别人脸外,电脑还利用突出的面部特征,如眉毛和嘴唇的位置和形状来确定一个人的面部表情和情绪。一个潜在的应用是在执法部门的监视和行为分析领域。此外,这种技术被用于数码相机在检测到微笑时自动拍照。即便如此,最有前途的应用仍然是人工智能系统的拟人化。如果人工智能系统能够保持对长期情绪感知和预测[1]的跟踪,机器人就可以被激活,从而实现更好的人机交互。因此,我们可以说情感识别在改善人机交互(HRI)中起着重要的作用。

1.2.研究目标

本文主要研究的是基于神经网络的人工智能系统,该系统能够通过人脸图像来表达人的情感。主要的研究问题是:人工神经网络是如何用于解释人类的面部表情的。本文的其余部分描述了回答这个主要问题所采取的步骤。在第二部分,对文献的调查阐明了面部表情在情感识别中的作用,以及适合于自动图像分类的网络类型。第三部分阐述了所考虑的神经网络是如何构造和训练的。第4节描述了最终模型的执行情况,然后是结论。

2文献调查

人脸情感识别系统通常通过两种方式评估:主体独立或跨数据库的[4]。在主体独立评价中,分类器用数据库的某一部分(训练集)进行训练,用同一数据库的剩余图像(测试集)进行评价。在跨数据库方法中,分类器用一个数据库的所有图像进行训练,用另一个的数据库进行评估,这对分类器来说是一种新的方法。由于一个数据库对所有图像具有相同的设置(光照、姿态、分辨率等),所以前者的任务要比后者容易.

深度神经网络(DNN)是近年来解决FER问题的一种新方法。DNN是为提高神经网络的大数据处理能力而设计的神经网络体系结构。随着计算能力的日益增强,DNN架构提供了一种基于“类脑”结构开发的学习架构,这种结构能够在文本、图像和声音中学到复杂的模式。因此,利用“深度学习”领域的最新技术来解决FER问题这一想法是合理的。卷积神经网络(CNN)是一种深度网络,传统意义上是研究计算机视觉和深度学习的研究人员使用的。DNN在跨数据库任务方面表现得很好,通过训练神经网络进行特征识别和提取,可以在较短的时间内设计出人脸情感识别系统。

以下是一些相关工作:

  1. 人脸属性识别[2]的最新突破是一种端到端的新型深度网络管道,它实现了年龄、情感和性别等方面的识别。总共用了有400万张图像,包含4万多个身份的各种数据集来训练这一深度网络。FER2013数据集是专门用于情绪识别系统的。准确率:年龄估计- 61.3%,情感识别- 76.1%,性别识别- 91%。本次的情绪识别系统优于微软的Face API 15%。
  2. 在Kahou等人的文献[3]中,一个ConvNet架构包含四个阶段,每个阶段包含不同的层。在最初的两个阶段使用conv层,然后是max pooling和local response归一化层。第三阶段包括一个conv层接着是平均池化层。在最后一个阶段有七个softmax单元,给出了七个概率,每个情绪标签对应一个概率。该网络在AFEW2数据集上进行了两次训练;第二次使用的是预处理后的图像。该方法获得了2013年表情包挑战赛的冠军。
  3. 文献[4]中的网络架构由两个conv层组成,每个conv层后面是max pooling和四个Inception层。该网络以记录的人脸图像为输入,将其分为六种基本情绪之一。该神经网络在MultiPIE、MMI、CK 、DISFA、FERA、SFEW、FER2013等面部表情数据库上进行训练。
  4. 俞志定等人在文献[5]中提出将人脸检测和分类模块与多个深度CNN的集合相结合,提出了一种深度CNN模型。每个CNN模型都是在2013年面部表情识别(FER)挑战赛用的更大数据集上预先训练得到的。在SFEW 2.0数据集上对预训练模型进行了微调。它在FER数据集上得到了最好的结果。验证集和测试集的准确率分别达到55.96%和61.29%,超过了(EmotiW) 2015年的挑战基线。
  5. 最近关于情绪识别的一项研究描述了一种神经网络,能够从人脸的图片中识别种族、年龄、性别和情绪[6]。用于后一类的数据集来自面部表情识别挑战(FERC-2013)。一个组织清晰的深度网络由3个卷积层、1个全连通层和中间的一些小层组成,在情感分类上的平均准确率为67%,与之前在同一数据集上发表的最先进的研究成果相当。此外,本文还对调整网络大小、池和退出的效果进行了有价值的分析。

从以上研究中我们发现,将多个卷积层结合在一起的神经网络,再加上其他一些层[2]、[3]、[4]、[5]、[6],是一种最佳的人脸情感识别结构。此外,从[4]和[5]我们可以推断,不同数据集的组合可以提高流形的性能。此外,通过[2]、[4]、[5]、[6]建立的FER2013数据集是目前用于情绪识别系统预训练的最佳可用数据集。

因此,在下一节中,将设计最适合解决FER问题的体系结构。

3方法

3.1数据集

神经网络,特别是深度神经网络,以需要大量的训练数据而闻名。此外,用于训练的图像对最终模型的性能有很大的影响。这意味着需要高质量和高数量的数据集。对于情感识别,有几个数据集可供研究,从几百张高分辨率的照片到成千上万张较小的图像。

其中选择人脸表情识别challenge (FERC2013)数据集[7]作为FER系统训练常用数据集,选择Radbound Faces (RaFD)数据集[8]进行交叉验证。

数据集之间的不同主要在于图像的数量、质量和“清洁度”。以FERC-2013为例,它大约有32000张低分辨率图像,而RaFD提供8000张高分辨率图像。此外,可以注意到,在RaFD的面部表情是由“干净”表情构成,而FERC-2013的剧集则夸张的展现了的情感。这使得FERC-2013数据集的图片更难解读,但考虑到数据集的庞大规模,多样性可能是有益于模型的鲁棒性的。图2显示了编号。在FERC2013数据集中,每个情绪对应的图像。

很明显,一旦用FERC-2013集上进行训练,来自“干净”数据集的图像就可以很容易地进行分类,反之则不能。请注意,非正面人脸和带有轻蔑标签的图片是从RaFD数据中提取的,因为这些情感没有在FERC-2013训练集中有所表示。

此外,在OpenCV框架[9]中使用基于Haar特征的级联分类器,对所有数据进行预处理。对于每幅图像,只有包含人脸的正方形部分被获取、重新缩放并转换为一个具有大小为48x48灰度值数组。

3.2网络

本文提出的网络结构如图3所示。它由四个学习层、三个卷积层和一个完全连接的层组成。本节将描述此网络的一些重要特性。

  1. 训练

该网络使用运行在Python上,用TensorFlow的TFLearn[10]库进行编程。这种环境降低了代码的复杂性,因为创建的是神经元层而不是单个神经元。该方法的优点是可以实时得到训练进度和精度的反馈,提高了训练模型的可重用性。

  1. 线性整流函数

近年来,线性整流函数(修正线性单元)作为一种激活函数被神经网络研究人员广泛应用。原因是ReLU计算激活函数为:。这意味着激活阈值为0。与sigmoid和tanh函数相比,这有助于更快地收敛随机梯度和更快地学习。

  1. 局部对比度归一化

ReLU不需要输入归一化来避免饱和。即使一些训练的例子为ReLU提供了积极的输入,学习也会发生在那个神经元上。但局部归一化方法对泛化很有帮助。如果能够激活具有核i和位置(x,y)的神经元,则应用ReLU得到的对比度归一化激活为;

在第一个卷积层ReLU之后应用该归一化,如图3所示。

  1. 最大池化

CNN中的池化层就像一个池化单元网格,每个像素都有一个宽度为p的池化单元,以池化单元的位置为中心求和一个qx qneighborhood。当pis设置为p对于该模型,取p, q的值为p=2, q=3。使用max-pooling可以减少过度拟合。

  1. 网络体系结构

网络从一个48times;48的输入层开始,匹配输入数据的大小。下一层是5x5x64卷积层,内核大小为5x5, stride为1。该层的输出给局部对比度归一化层,然后是最大池化层。然后是另一个5x5x64卷积层,它连接到一个最大池层,最大池层的步长为2,卷积层为4x4x128。最后,一个线性完全连接的层将输入给一个softmax输出层。当我们对7种情绪进行分类时,应用7个softmax单元分别映射一个分类。为了避免过拟合,对全连通层采用dropout概率0.3。所有的卷积层都包含ReLu单元。完整的网络体系结构如图3所示。

对于本文,可以使用第二个最大池化层来减少参数的数量。这一操作降低了网络的计算强度,而性能只受1-2%的影响。此外,学习速度可以调整,而不是像Gudi[6]所做的线性下降。

4结果

图3显示了网络体系结构的概述。最后对网络进行100个epoch的学习率为0.001的训练,确保精度收敛到最优。网络训练使用FERC- 2013数据集20000张图片完成。图2给出了这个集合中出现的情绪的比率。新编译验证集(20000张照片)和测试集(10000张照片)fFERC- 2013数据集一起使用的平衡RaFD测试集。

所有验证集和测试集的准确性为68%,如图4所示,强调更多的数据和更长的训练可以提高网络的性能。需要注意的是,在包含完全不同于训练数据的RaFD测试集上,准确率要比训练数据高71%。这体现出最终模型的有效泛化能力。

最终模型的性能矩阵如图5所示,其中happy的准确率最高(90%),sad的准确率最低(28%)。值得注意的是,尽管厌恶情绪的图片较少,但其准确率要高得多,62%。

在开发的应用程序的帮助下,实现了视频实时情感识别,该应用程序通过最终的模型直接处理摄像头镜头。如上所述,使用OpenCV人脸识别程序[9]对实时视频中的人脸进行跟踪、提取并缩放到一个可用的48x48像素输入图像。该数据被输入神经网络模型时,返回输出层的值。这些值表示用户描述的每种情绪的可能性。值最大的输出假设为用户当前的情绪,并由屏幕左侧的emoticon表示。

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[19780],资料为PDF文档或Word文档,PDF文档可免费转换为Word

您需要先支付 30元 才能查看全部内容!立即支付

发小红书推广免费获取该资料资格。点击链接进入获取推广文案即可: Ai一键组稿 | 降AI率 | 降重复率 | 论文一键排版