任意方向旋转字符识别算法研究开题报告

 2021-12-13 09:12

1. 研究目的与意义(文献综述)

人类在认知周围环境时,70%以上的信息从眼睛获取,图像成为了当今世界信息传递和交流的一种重要载体,而图像中的文本信息最能直接地体现图像所传达的信息,计算机视觉中的图像文本识别变的尤为重要,图像文本识别已成为热门研究方向。

对光学字符识别(optical character recognition, ocr)技术的研究已经超过了半个世纪并且逐渐发展成熟,其本质上是利用光学设备捕获图像中的文字信息并转换为计算机可读的语言,这项技术广泛应用于文档图像中的字符识别。但随着各种含有摄像机的手持设备的流行,对场景文本图像的识别提出了更高的要求。而对任意方向的旋转字符识别是其中的难点和重点。基于机器视觉和模式识别技术的字符识别是文本识别的一个重要分支。由于场景文本图像不仅存在分辨率低,字体,大小,方向和排列方式也具有多样性,直接利用现有的光学字符识别(ocr)技术处理,识别精度低,对应用环境变化的适应性差。而目前场景文本的识别技术往往只研究水平方向的字符,缺乏通用的文字表达模型。因此,如何快速,准确,鲁棒的定位和识别场景图像中的不同文本方向的文字仍然是一个具有挑战性的研究课题。

近年来,各种与文字研究相关的国际会议,如 icdar、icpr、cvpr等,以及各种关于文本定位和识别的比赛推动了文本研究的发展。对于旋转字符识别的方法,目前国内外有:

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

2. 研究的基本内容与方案

基本内容:任意方向字符识别系统从场景图像文本定位和识别两个方向进行研究,在文本定位阶段,就能准确定位出文本所在区域为目标,设计出对文本内容和背景内容能有效分类的分类器。在文本识别阶段,就常见的方向特征展开分析,着力于设计出具有鲁棒性的文本方向描述子,具体需满足:位移不变、尺度不变、旋转不变、射影不变等条件。

目标:本研究以字符识别中的任意方向旋转的字符识别为目标,从字符的方向特征出发,致力于设计出能够快速准确识别出场景文本中多方向字符的系统。

拟采用的技术方案及措施:在场景图像文本定位阶段,采用特征提取的方法,并使用基于cnn的svm分类器进行分类。卷积神经网络在学习有效的图像表示方面具有卓越的能力。然而,他们处理重大变形的能力,如旋转、缩放等,仍然有限。需要一种旋转和尺度不变的卷积神经网络,使其过滤器在卷积过程中能够进行主动旋转和缩放操作,并在不增加模型参数数量的情况下产生旋转和缩放不变的特征,在卷积运算中,过滤器能够共享不同方向和尺度的特征提取参数。同时构建自注意模块(self-attention modules),消除冗余数据的影响,充当特征选择器。该网络使用端到端的方式进行训练。并使用minst手写数据集对系统性能进行测试。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

3. 研究计划与安排

2019年2月1日-2019年2月28日:掌握技能,具有针对性的学习编程语言,算法,图像处理相关知识,尝试实现已阅读文献中的方法,完成开题报告;

2019年3月1日-2019年3月31日:设计新的具有鲁棒性的任意方向文本识别的文本定位分类器和方向特征描述方法,从理论和实验上进行验证;

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

4. 参考文献(12篇以上)

[1] sergry z, nikos k. learning to compare image patchesvia convolutional neural networks. ieee conference on computer vision andpattern recognition, 2015,pp.4353-4361

[2] dmitry l, nikolay s, joachm m.b, marc p.ti-pooling:transformation -invariant pooling for feature learning inconvolutional neural network. in: proceedings of the 2016 ieee conference oncomputer vision and pattern recognition. 2016. 289-297.

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

课题毕业论文、开题报告、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。