全文总字数:3671字
1. 研究目的与意义(文献综述)
tesseract源于国外,是一个开源的光学字符识别引擎,是由惠普公司的布里斯托尔实验室1984年到1994年间开发的。作为惠普的平板扫描仪的商业文字识别引擎,它在1995 年的unlv ocr字符识别准确性测试中名列前茅,具备了非常好的商业应用价值。后来由于惠普决定放弃 ocr 市场,tesseract 的发展从1994 年开始完全停止,被尘封了数年之久。后来惠普将tesseract献给开源社区,它才重获新生。目前,tesseract 作为开源项目发布在 google project上。
国外ocr技术的发展分为三个阶段:最早的ocr产品应该是ibm公司的ibm1418,它只能识别印刷体的数字、英文字母及部分符号,并且必须是指定的字体;第二代ocr产品是基于手写体字符的识别,前期只限于手写体数字的识别。第一个实现手写体邮政编码识别的信函自动分拣系统是由日本东芝公司研制的,两年后nec公司也推出了同样的系统。到1974年,信函的分拣率达到92%~93%;第三代ocr产品主要解决的技术问题就是对于质量较差的文档及大字符集的识别,例如汉字的识别。最先投入汉字识别研究的日本东芝公司,于1983年发布了其识别印刷体日文汉字的ocr系统-ocr-v595,其识别速度为每秒70~100个汉字,最高识别率达到99.5%。
而在国内,则是使用自己研发的ocr系统。我国在70年代末开始进行汉字识别的研究,到1986年汉字识别的研究进入一个实质性阶段。具有代表性的成果是th-ocr 97综合集成汉字识别系统,它可以完成多文种(汉、英、日)印刷文本、联机手写汉字、脱机手写汉字和手写数字的识别输入。在国内,ocr技术的发展和应用主要有以下几个阶段:(1)印刷体单字体识别,支持国标一级汉字3755字、繁体5401字,简繁体和字体由用户指明,识别率在95%左右;(2)印刷体多字体识别,支持国标一级汉字3755字,繁体5401字,简繁体由用户指明,宋仿楷黑四体混合识别,识别率在95%左右,对质量较差的印刷文稿的识别率会明显下降;(3)多字体大字符集简繁混排、中英文混排识别,支持国标二级汉字6763字、繁体5401字、香港常用字等1万多字,识别字体扩充到常见的十多种字体,识别率在99%左右;(4)各种应用系统开始推出,如名片识别系统、身份证银行卡识别系统、车牌识别系统、银行票据识别系统、增值税发票识别认证系统等。
2. 研究的基本内容与方案
基本研究内容
(1)数据采集:系统要对整个项目工程进行管理,就需要先获得管理工程所需要的的详细数据并反馈给系统内部。
(2)图像处理:针对手机等移动终端拍摄图像的特点,对图像进行增强处理以提高识别引擎的文字识别率,使图像文字更容易识别
3. 研究计划与安排
2020/3/1-2020/3/7完成外文翻译、对系统进行需求分析以及相关的系统总体设计。
2020/3/8-2020/3/14 对图文识别系统进行研究提出适合该业务流程的软件架构,并搭建开发环境。对系统进行详细设计,完成各种说明书和绘图。
2020/3/15-2020/3/21进行初步编程形成初步框架。
4. 参考文献(12篇以上)
[1]万松. 基于tesseract-ocr的名片识别系统的研究与实现[d].华南理工大学,2014.
[2]李华桥. 基于特征的表格内容识别的研究[d].北京交通大学,2019.
[3]麦尔旦·吐拉江. 基于光学字符识别维汉翻译软件的研究与实现[d].新疆大学,2018.
