基于卷积神经网络的人脸识别外文翻译资料

 2022-11-10 15:09:04

英语原文共 4 页,剩余内容已隐藏,支付完成后下载完整资料


基于卷积神经网络的人脸识别

MusabCoşkun ; Ayşeguuml;lUccedil;ar ; Ouml;zalYildirim ; Yakup Demir

摘要: 人脸识别对于现实世界中的应用起到十分重要的作用。比如视屏监控,人机互动和安全系统,与传统的机器学习方法相比,基于深度学习方法的图像识别在准确性和速度方面表现得更好。本文提出了一个修改卷积神经网络(cnn)得方案,即在原架构中加入两个标准化操作,并提供批量标准化加速网络,使用CNN架构提取面部特征,并在全连接层之后使用softmax分类器进行分类。根据乔治亚理工学院数据库中的实验数据结果显示,提出的方法的确加强了人脸识别,表现出更好的识别效果。

关键词:人脸识别,卷积神经网络,softmax分类器,深度学习

Ⅰ 引言

面部识别是识别面部系统的重要部分。由于其在安全系统,权限管理系统,事变监控系统,商业领域的广泛使用,已经成为一项至关重要的人机交互工具。甚至facebook这样的社交网络中也需要他的应用。经历了人工智能的飞速发展之后,其与其他形式的身份辨别生物技术相比,人脸识别由于其非侵入性又一次引起了人们的注意。人脸识别在一个不可控的环境中脱离了人为的操控也能轻松的完成识别。

随着调查人脸识别的历史,可以发现很多研究论文中已经针对人脸识别提出了很多修正解决方法。传统的基于浅层学习的学习方法由于光照场景,图像北京的复杂性,面临姿势变化,面部伪装,面部表情变化等诸多挑战,基于浅层学习的方法仅利用一些基本特征图像和依靠人工经验提取样本特征。但是基于深度学习的方法可以提取更复杂的面部特侦,深度学习在解决那些限制人工智能领域发展多年的问题上起到了重大的推进作用。事实证明,其在揭示高维数据中附加结构的能力十分出色。因此他适用于科学,商业,政府部门等多种领域。它解决了使用单个算法或一些算法学习分层表示的问题,应用在图像识别,自然语言处理,语义分割和许多其他现实世界场景并打破了多项纪录。有有多种不同的深度学习方法,如卷积神经网络(CNN),堆叠自动编码器和深度信念网络(DBN)。CNN重要用于图像和人脸识别,是一种人工神经网络,其采用卷积方法从输入数据中提取特征,以增加特征的数量。CNN最先由LeCun提出,并应用与手写数字的识别。他的网络结构是最近多种架构的起源,也是该领域很多科学家的真正灵感来源,Krizhevsky,Sutskever和Hinton在ImageNet竞赛中利用他们的作品,取得了迄今以来的最好成绩。他被广泛认为是计算机视觉领域最具影响力的架构至于,并且与人工制造的方式相比,cn表现出了优越的识别性能。凭借图形处理单元(GPU)的计算能力,CNN在包括图像识别,场景识别,语义分割和边缘检测等许多领域取得了显著的前沿成果。

本文的主要贡献是采用一种高精度的强大识别算法。在本文中,我们通过在两个不同的层之后添加批量标准化过程来开发新的CNN架构。

本文中人脸识别过程的一般结构由三个部分组成。它从预处理阶段开始,经过颜色空间转换和图像大小调整,然后提取面部特征,最后对提取的特征集进行分类。在我们的系统中, CNN提取的面部特征实现分类的最后阶段使用了Softmax分类器。

本文的其余部分安排如下。 在第2节中,介绍CNN架构。 在第3节中,讨论所提出的算法。 在第4节中,介绍本文中使用的面部数据库。 在第5节种给出实验结果。最后,我们在第6节进行总结。

Ⅱ 原理

CNN是一种神经网络,其已经被证明在图像识别与分类领域非常有效。它是一种有多层组成的前馈神经网络,CNN由具有科学系的权重或参数和偏差的滤波器或内核或神经元组成。每个滤波器都需要输入,然后对输入进行卷积,最后使用非线性回归函数。典型的CNN架构如图1所示,CNN的结构包含卷积,汇集,整流线性单元和完全连接层。

A 卷积层

卷积层执行卷积网络的核心构建块,其执行大部分计算繁重的工作。 卷积层的主要目的是从作为图像的输入数据中提取特征。 卷积通过使用输入图像的小方块学习图像特征来保持像素之间的空间关系。 通过使用一组可学习的神经元来对输入图像进行卷积。 这在输出图像中产生特征图或激活图,然后将特征图作为输入数据馈送到下一个卷积层。

B 池化层

池化层减少了每个激活映射的维度,但仍然保留了最重要的信息。输入图像被分成一组非重叠矩形。 通过诸如平均值或最大值的非线性操作对每个区域进行下采样。该层实现了更好的泛化,更快的收敛,对转换和失真的鲁棒性等功能,通常位于卷积层之间。

C 非线性激活函数

ReLU是一种非线性操作,包括采用整流器的单元。它是一个元素操作,意味着它按像素应用,并将要素图中的所有负值重新组合为零。 为了理解ReLU如何操作,我们假设有一个神经元输入给定为x,并且整流器在神经网络的文献中被定义为f(x)= max(0,x)。

D 全连接层

完全连接层(FCL)是指前一层中的每个过滤器都连接到下一层中的每个过滤器。 卷积,池化和ReLU层的输出是输入图像的高级特征。采用FCL的目的是利用这些特征将输入图像分类为基于训练数据集的各种类别。 FCL被视为最终汇集层,将特征提供给使用Softmax激活功能的分类器。 来自完全连接层的输出概率之和为1.这通过使用Softmax作为激活函数来确保。 Softmax函数采用任意实值得分的向量,并将其压缩为0到1之间的值的向量,其总和为1。

Ⅲ 目的算法

所提出的CNN识别算法的方框图如图2所示。该算法主要分三步进行:

1)将输入图像的大小调整为16x16x1,16x16x3,

32x32x1,32x32x3,64x64x1和64x64x1。

2)构建具有八层的CNN结构,分别由卷积,最大池,卷积,最大池,卷积,最大池,卷积和卷积层组成。

3)提取所有特征后,使用Softmax分类器进行分类。

在图3中,显示出了所提出的CNN的特征提取块的结构

佐治亚理工学院的人脸数据库包含50个人的图像,这些人在1999年1月6日至1999年11月15日期间在佐治亚理工学院信号与图像处理中心的不同时间进行了两到三次人像采集。 数据库中的每个人都由15个彩色JPEG图像表示,背景杂乱,分辨率为640times;480像素。 这些图像中的面部的平均尺寸是150times;150像素。 图像显示具有不同面部表情,光照条件和比例的正面和/或倾斜面。数据库中图像中的所有面部区域被调整为82times;94。 图4显示了GT数据库中不同主题的一些人脸图像[42]。

Ⅴ 实验结果

我们使用Beta23版MatConvNet软件工具设计了CNN。 在预处理阶段之后,每个图像的大小改变为16x16x1,16x16x3,32x32x1,32x32x3,64x64x1和64x64x3。将66%的图像作为训练集,34%作为测试集。 我们通过改变图像大小,学习速率,批量大小等来实施不同的测试.CNN训练了35个时期。根据前1和前5个错误率评估了所提出的CNN的性能。 排名前1的错误率检查顶级是否与目标标签相同,前5错误率检查目标标签是否是前五个预测中的一个。 表1中描述了所提出的算法的简要结构。结果优于使用如参考文献中的浅学习技术的文献中的结果

所提出的CNN架构在错误率方面的性能如图5所示。从图5可以看出,从64x64x3大小的图像中获得了最低的错误率。当旨在找到数据库中任何主题的目标标签时,该结果很重要。 图6中显示了前5个错误率,并且从具有三个通道的所有图像中获得了最低速率。

Ⅵ 结论

本文提出了一种基于CNN架构的人脸识别系统的实证评估。 该算法的突出特点是它对第一个和最后一个卷积层的输出采用批量归一化,使网络达到更高的准确率。 在完全连接的层步骤中,使用Softmax分类器对面进行分类。 在Georgia Tech Face Database上测试了所提算法的性能。 根据文献研究,结果显示出令人满意的识别率。

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[19043],资料为PDF文档或Word文档,PDF文档可免费转换为Word

您需要先支付 30元 才能查看全部内容!立即支付

发小红书推广免费获取该资料资格。点击链接进入获取推广文案即可: Ai一键组稿 | 降AI率 | 降重复率 | 论文一键排版