手写阿拉伯数字的识别开题报告

 2022-11-01 10:11

1. 研究目的与意义

字符识别处理的信息可分为两大类:一类是文字信息,处理的主要是用各国家,各名族的文字如:汉字,英文等书写或印刷的文本信息,目前在印刷体和联机手写方面技术已趋向成熟,并推出了很多应用系统;另一类是数据信息,主要是由阿拉伯数字及少量特殊符号组成的各种编号和统计数据,如:邮政编码,统计报表,财务报表,银行票据等等,处理这类信息的核心技术是手写阿拉伯数字识别。因此,手写阿拉伯数字的识别研究有着重大的现实意义,一旦研究成功并投入应用,将产生巨大的社会和经济效益。

当前在手写阿拉伯数字识别的研究中,对于已二值化的图像抽取特征的方法有许多种。常用的统计特征有Gabor变换特征、Legendre矩特征,Pseudo-Zernike矩特征与Zernike矩特征。统计特征通常反映图像点阵总体分布情况,这些特征的图像预处理简单,对噪声不敏感,但对字的一些精细结构部分反应不灵敏。由数字图像的骨架和轮廓可抽取出手写数字的结构特征,它往往对字结构精细部分反映灵敏,但图像预处理复杂,对噪声较敏感,一个完善的基于结构特征的分类器往往十分庞杂。基于这种情况,研究一种特征提取基于根据图像像素的走向判断出某段数字的结构的手写体识别系统具有一定的现实意义。

2. 课题关键问题和重难点

本课题主要解决以图像形式存在的手写阿拉伯数字的识别问题。主要分为三个部分:预处理,手写体阿拉伯数字的结构化特征的提取,分类器设计及识别。

图像预处理阶段的细化工作,主要是为了使结构化特征提取时,所提取的特征能更好地反映手写阿拉伯数字或字母的特征。手写体数字或字母的结构化特征的提取,是本课题的关键部分,直接关系到识别的准确率。结构化特征主要根据图像像素的走向,准确判断出某段数字或字母的结构,如直线、折线、曲线、分叉线等。

手写阿拉伯数字的研究难点在于:第一,不同数字之间字形体相差不大,使得准确区分某些数字相当困难;第二,数字虽然只有十种,而且笔画简单,但同一数字写法千差万别。使得手写阿拉伯数字识别的识别率和识别精度很低。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

3. 国内外研究现状(文献综述)

手写阿拉伯数字的识别一直是近年来模式识别及图像处理领域的研究热点,是字符识别的一个分支,问题虽然简单,但却有较大的实用价值。广泛应用于财务,税务,邮政,科研,以及大规模数字统计工作之中。例如:目前中国在信函通信时广泛使用了邮政编码,用手写体数字识别技术进行信函的自动分拣对减轻邮电职工的手工分拣工作有很大意义。随着我国经济的发展,手写数字识别在经济领域也将发挥更多的积极作用。 作为光学字符识别的研究方向之一,近年来,研究者们分别开发出基于结构特征的研究方法,基于统计特征的研究方法等诸多方法,取得了不少令人满意的成果。例如组合结构特征的自由手写体数字识别算法[5],基于骨架结构特征的手写数字识别方法等[3]。研究基于统计特征的方法主要有模版匹配法,像素点统计分析法,全局变化及级数展开法等。有学者提出了基于手写数字图像的空间、旋转、层次和结构特性的特征提取方法[4]。 对于手写数字的识别,研究者们分别提出不同的识别工具,其中支持向量机,隐马尔可夫模型,以及人工神经网络等模型均成为研究热点。 支持向量机的方法具有较好的性能及识别率,也具有较高的识别精度,正成为机器学习领域中一种新型的热门研究方法。svm学习得到的优化结果是全局最优解,svm的学习结果为支持向量集,充分体现了整个样本集的属性。隐马尔可夫模型是一种基于马尔科夫随机过程的统计模型,其善于处理随机信号,在语音识别领域的应用性较广。hmm模型通常有3种类型:离散隐马尔可夫模型(dhmm),连续隐马尔可夫模型(chmm)和半连续隐马尔可夫模型(schmm)。 dhmm需要进行矢量量化(vq),vq会带来一定的误差,而且vq与hmm的训练是分离的,因而其性能不如其他两个模型,但运算量少,计算简单[1]。 人工神经网络采用的是人体大脑中的学习反馈思想,有较高的运行效率,实现方式也相对简单。误差反向传播神经网络,简称bp神经网络,是一种朝着满足给定输入输出关系方向进行自组织的网络,是应用最为广泛的一种神经网络。 用bp网络来识别手写体数字是手写体数字识别的一大进步,将bp网络技术和数字本身的结构特征结合起来,提出了一种基于结构特征分类bp网络的手写体数字识别新方法。首先提取点、环等数字特征值,并根据一些特征进行分类;然后再运用bp神经网络识别,以提高网络的识别能力[2]。bp神经网络具有以下优点:(1)bp神经网络实质上实现了一个从输入到输出的映射功能,数学理论证明三层的神经网络就能够以任意精度逼近任何非线性连续函数。这使得其特别适合于求解内部机制复杂的问题,即bp神经网络具有较强的非线性映射能力。(2)bp神经网络在训练时,能够通过学习自动提取输出、输出数据间的合理规则,并自适应的将学习内容记忆于网络的权值中,具有高度自学习和自适应的能力。(3)bp神经网络具有将学习成果应用于新知识的能力。(4)bp神经网络在受到局部损伤时还是可以正常工作的,具有一定的容错能力。基于上述优点拟采用bp神经网络算法实现手写数字的识别。

[参考文献]

[1] 刘刚, 张洪刚, 郭军.用于脱机手写数字识别的隐马尔可夫模型[j].《计算机研究与发展》2003年 第8期.

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

4. 研究方案

三大步骤:第一阶段,预处理;第二阶段,特征提取;第三阶段,分类器设计及识别。

第一阶段预处理阶段主要包括定位,二值化,去噪,切分,大小规格化,细化等步骤,这里将采用一些成熟的算法。

第二阶段手写阿拉伯数字特征的提取结构化特征时主要根据图像像素的走向,准确判断出某段数字或字母的结构,如直线,折线,曲线,分叉线等。同时配合中线特征等建立起较为准确的特征库。

第三阶段分类器设计及识别是将采用BP神经网络算法设计分类器,通过这些算法本身的高容错率和算法本身的模糊判断等特征,再结合之前建立起的准确的特征库,从而提高手写阿拉伯数字识别时的正确率,达到理想的识别效果。

采集原始图像后,图像预处理阶段通过滤波去噪,通过灰度化,二值化,字符切分,图像校正,归一化处理的步骤进行处理。图像特征值提取阶段针对数字字符的端点,三度点,四度点,折点的个数和位置,横向切割交点序列,纵向切割交点序列等特征值,通过沿着轮廓点扫描的方法来实现。在识别阶段利用构建BP人工神经网络来实现对已经过特征提取的数字结构模型进行识别,在保证精度与效率的情况下完成整个系统的构建。

具体步骤如下:

1、原始图像采集 2、图像预处理 3、特征分析 4、分类识别 5、识别结果

5. 工作计划

第1~3周:撰写开题报告和完成外文翻译。

第4周:进行课题模块化设计,完成图像预处理

第5~7周:图像特征分析工作,并进行模块代码编写与调试。

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

课题毕业论文、开题报告、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。