1. 研究目的与意义、国内外研究现状(文献综述)
【本课题的意义】
今天,随着计算机的普及和internet的发展,人们记录和获取信息的途径已发生了深远的变革,过去人们用纸来记录信息,今天人们用计算机来记录信息,对它们进行编辑和整理,保存在磁盘、磁带或其它介质上,以各种方式满足人们的不同需求。在这个信息爆炸的年代,用人工方式输入文字已不能满足要求。如果计算机可以识别文字,就可以用计算机代替人们的简单、重复的劳动,将语言及文字高速自动地输入计算机。因此研究计算机识别文字的目的就是解决文字信息高速、自动输入计算机的问题,使计算机能方便地进行信息加工处理。
对汉字的识别不仅关系到中文信息高速,自动输入计算机的问题,而且关系到我国能否在这个信息化时代实现赶超发达国家的重任。东西方文化不同,汉字与英文的差异就更加巨大。对英文的识别方法并不适合汉字的识别,因此我们有必要对汉字识别方法进行深入研究。
2. 研究的基本内容和问题
【研究的目标】
通过对纸质文档的扫描,将文档上的内容分割,分出单个汉字、字母和标点符号。将细化后的单个汉字,利用基于四角号码检字法实现的算法对其依次进行识别,将分割出的字母、标点符号进行识别。将识别后的文字整合成文档。最后,将文档转化为相应的二进制,转化为二维码实现数据压缩。
【研究的内容】
1)扫描输入文本图像。
3. 研究的方法与方案
图1.1印刷体文字识别的简单流程图
版面分析主要是对文本图像的总体进行分析,区分出文本段落及排版顺序,对于文本区域将进行识别处理。行字切分是将大幅的图像先切割为行,再从图像行中分离出单个字符的过程。特征提取是整个环节中最重要的一环,它是从单个字符图像上提取统计特征或结构特征的过程,包括为此而做的细化、规范化等。提取特征的稳定性及有效性,直接决定了识别的性能。文字识别,即从学习得到的特征库中找到与待识别字符相似度最高的字符类的过程。
4. 研究创新点
【特色或创新之处】
特色之处在于用四角号码检字法算法识别汉字,汉字识别后即带有十进制编码,再转换为二进制后生成二维码,一气呵成,大大缩短处理时间。
5. 研究计划与进展
【研究计划及预期进展】
一、研究计划
1.运用图像处理的相关知识对识别后的文本进行校正、分割、细化。
