手写数字识别中的图像平移旋转问题研究文献综述

 2022-11-26 16:46:17

文 献 综 述

近年来,人工智能(AI)技术对人类社会的影响越来越深远与广泛,它正在为农业、医疗、教育、能源、国防等诸多领域提供了大量新的发展机遇[1]。从1943年开始,心理学家W.S.McCulloch和数理逻辑学家W.Pitts建立了神经网络和数学模型(MP模型),开创了人工神经网络研究的时代[2]

2006年,“深度神经网络”学习技术的出现引发的变革,使得人工智能领域取得了重大进展。深度神经网络是一种模仿人脑神经元的组成结构和传递信息的方式,利用相关的机器学习算法,让计算机从大量训练样本数据中学习其潜在的特征和规律,并据此识别新的数据样本,以期达到甚至超越人脑的学习机制[3]

它的优势在于不用人工干预,只需要设置几个简单的参数,就可以让计算机自己从数据中学习,进而解决很复杂的问题,有着很强的大规模并行处理、分布式信息存储以及自组织和自学习的能力[4]。因此,它在很多领域,如计算机视觉、语音处理和图像识别上都有着很好的表现。其中,手写数字的识别是图像识别中很重要的领域,也是衡量可编程设备接收和解释智能手写数字输入单元的一种能力。

手写数字识别技术是指:计算机能够正确识别和分类手写数字0-9[5]。然而,由于人们在书写数字时,有着大量不同的书写风格,导致手写数字识别相当复杂。

2006年,Gorgevik等人从数字图片中提取映射直方图、轮廓曲线、环带和 Kirsch特征四个类型的特征来进行训练[6]。2007年,Chen等人提出了最大-最小后验伪概率框架来进行手写数字识别[7]。2012年,Srinivas等人则使用反向传播算法去训练简单的递归神经网络(Elman NeuralNetwork,ENN) [8],他们发现当使用自适应的学习速率来训练时,需要的迭代次数更少,学习速度更快。为了处理图像的变形,Snezana等人基于 Hu矩提出了一个新算法来识别手写数字[9],因为 Hu矩对于很多形变如旋转或缩放有着很好的不变性。2013年,Kessab等人则提出了一个新方法:使用神经网络和特征提取技术来进行手写数字识别[10]。2014年,Ravi等人则使用最大剖面距离来提取特征,这里在识别手写数字时,用到了10个结构特征,并且使用最小欧式距离标准找到最小距离,使用K最邻近算法来分类数字[11]。2015年,Sayed等人则使用二维离散余弦变换(2-Dimensional Discrete Cosine Transform,2D-DCT)提取特征,然后训练隐马尔科夫模型(Hidden Markov Models,HMMs)来进行手写数字识别[12]。目前为止,在识别手写数字上,神经网络所能达到的最高准确率为 99.77% [13],胜过其它任何机器学习的技术。

本文采用了MNIST 数据集作为神经网络中训练模型。 MNIST数据集包含上万个连带着正确标签的手写数字的扫描灰度图像,是由美国国家标准与技术研究所(National Institute of Standards and Technology,NIST)采集的两个特殊的数据集SD-1和SD-3重构而成的。最初,数据集SD-1被指定作为测试集,SD-3被指定作为训练集,因为SD-1比SD-3书写的更不清晰,识别起来更困难。而从学习实验中,要想得出合理的结论,要求结果必须与整套样本中测试集和训练集的选择无关,因此,需要混合SD-1和SD-3来建立一个新的数据集,这就产生了MNIST数据集[14]。MNIST数据集中,训练集由 30000个SD-3数据和30000个SD-1数据组成,共60000个训练数据,而测试集由 5000 个SD-3数据和5000个SD-1数据组成,共10000个测试数据。为了有好的测试表现,测试数据从和采集训练数据完全不同的另外一组人中获取,以确保训练集和测试集是不相交的,从而验证系统是否能识别那些之前没有看到过的人写的数字[15]

神经网络在训练数据上进行学习,若干次迭代后得到一个较完善的网络模型,然后用此网络模型对测试数据进行验证,检验识别准确率。不过,一般而言,会将训练集分成两个部分:第一部分有50000个图像,作为训练集去训练网络;另一部分10000个图像,作为验证集去设置神经网络中的超参数,如学习速率、规范化参数等,因为这些参数不是由网络的学习算法来设定,而是根据经验和性能比较,人为设置的参数。

但在实际的试验中,当对数据集中的测试图像加入一个微小的平移量或旋转角度时,采用之前训练得到的模型进行测试,识别准确率会大幅度下降。

针对实验中发现的图像平移和旋转会导致数字识别准确率急速下降的问题,目前主要的解决方法有两个:一是数据增强[16],即对每幅原始图片,人为对其进行平移和旋转若干单位来产生新的训练数据以扩大训练集,进而提高网络平移和旋转的稳定性;二是使用卷积神经网络,由于卷积神经网络的特殊结构(使用局部感受野和池化层来进行特征提取),所以它可在一定程度上抑制图像平移和旋转带来的不稳定性。但是,前者的问题在于它只能在一定程度上改进性能,当超出这个界限,识别准确率仍会急速下降;而后者的问题在于卷积神经网络比较复杂。且二者共同的问题在于训练时间会增长,效率变低。

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

发小红书推广免费获取该资料资格。点击链接进入获取推广文案即可: Ai一键组稿 | 降AI率 | 降重复率 | 论文一键排版