基于Mask TextSpotter的场景文字识别系统的设计开题报告

 2021-11-20 23:00:32

1. 研究目的与意义(文献综述)

1.1 研究目的及意义

目前,随着信息科学技术的迅速发展,移动通讯设备日益普及,几乎人人手中都至少有一部终端设备。目前移动终端设备基本上都配置有不同像素的摄像头,人们可以随时随地的进行拍照、摄像,并利用网络媒体随时分享图文视频。在这些丰富的图文视频中,蕴含着大量的信息,如文本信息。文本信息不同于一般的图像信息,它可以简短而清楚的表述出目标物质的特征信息,提取文本信息的重要性不言而喻。在日常生活中,文本信息往往隐藏于各种自然场景下,如图像和视频中。因而,提取自然场景下的文字已成为人们日常生活的需要。

自然场景中大量的文字等信息。例如,在路边的路标上,有着指向目的地的标识,通过其上的文字我们可以轻松到达目的地;在商品的外包装上,我们通过文字获取其生产日期,使用方法;在报纸文章中,我们可以知晓目前周围发生的种种事件。文字给予了我们大量信息,而在现在这个大数据的时代,一颗小小的sd卡可以存储数以亿计的图像文件。面对海量图像,如何快速的找到自己所需要的信息,已经逐渐成为计算机视觉领域的研究课题之一。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

2. 研究的基本内容与方案

2、研究(设计)的基本内容、目标、拟采用的技术方案及措施

从上述分析可以看出,自然场景文本识别算法依然有着巨大的研究价值,在未来很长一段时间仍将是研究的热点。本文在前人研究的基础上,研究了基于Mask TextSpotter的自然场景文本识别算法。该算法与以前使用端到端可训练深度神经网络完成text spotting的方法不同,Mask TextSpotter利用简单且平滑的端到端学习过程,通过语义分割获得精确的文本检测和识别。此外,它在处理不规则形状的文本实例(例如,弯曲文本)方面优于之前的方法。

论文内容具体安排如下:

第一,对这项研究作一个初步的认识与了解。首先引出问题,这一研究课题的背景是怎样的,以及做这项研究到底有什么意义。接着给出国内外当前研究的水平,取得了哪些重要成果。最后简明扼要的概括论文的主要研究内容和每一章节的安排。

第二,介绍自然场景下的文本识别技术,以及目前流行的由华中科技大学白翔教授提出的基于Mask TextSpotter的自然场景识别技术,并在虚拟机上以数据测试并进行实际的文本检测操作。

第三,基于Mask TesxtSpotter算法的基本框架,进一步提高该算法的识别准确率和识别效率,并自主开发可视化操作界面搭建便于交互的Window软件。

第四,对本文所做工作进行简要的总结,指出还可进一步改进的地方,并对下一步的研究工作做出规划与展望。

3. 研究计划与安排

第1-3周:查阅相关文献资料,明确研究内容,了解研究所需理论基础。确定方案,完成开题报告。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

4. 参考文献(12篇以上)

4、参考文献

[1] Neumann L, Matas J.A method for text localization and recognition in real-world images[C]//Asian conference on computer vision. Berlin:Springer,2010:770-783

[2] Chen H Z ,Tsai S S, Schroth G, et al. Robust text detection in natural images withedge-enhanced Maximally Stable External Regions[C]//18th IEEE InternationalConference on Image Processing, ICIP 2011,Brussels,Belgium:IEEE,2011:11-14.

[3] Neuman L, Matas J.Real-time scene text localization and recognition[C]//2012 IEEE Conference onComputer Vision and Pattern Recognition. Providence Ri:IEEE,2012:16-21.

[4] [1] 桂哲群. 自然场景下文本检测于识别的研究[D].吉林:吉林大学,2018

[5] Game S Z, Shen Y.New algorithm for text segmentation based on Stroke Filter[J] ComputerScience,2010:4347-4050

[6] Zayene O, Scuret M,Touj S M , et al. Text detection in Arabic News Video based on SWT operatorand Convolutional Auto-Encodes[C]//2016 12th IAPR Workshop on Document AnalysisStstems(DAS).Santorini:IEEE,2016:11-14.

[7] Zayene O, Seuret M,Touj S M, et all. Text detection in Arbic News Video based on SWT operatorand Convolutional Auto-Encoders[C]//2016 12th IAPR Workshop on DocumentAnalysis Systems(DAS).Santorini:IEEE,2016:11-14.

[8] Ren S, He K,Girshick R B, et al. Faster R-CNN: towards real-time object detection withregion proposal networks[C]//NIPS Proceedings of the 28th InternationalConference on Neural Information Processing Systems.Montreal:ACM,2015:91-99

[9] 闵华清,郑华强,罗容华.自然场景图像中基于视觉显著性的文本区域检测[J].华南理工大学学报(自然科学版),2012,40(08):39-45.

[10] Redemon J, DivvalaS K, Girshick R B, et al. You Only Look Once: Unified, Real-Time ObjectDetection[J].Computer vision and pattern recognition,2016:779-788.

[11] Tian Z, Huang W L,He T, et al. Detecting Text in Natural Image with Connectionist Text ProposalNetwork[J].European conference on computer vision,2016:56-72

[12] Zhou X Y, Yao c,Wen H, et al. EAST: An efficient and accurate scene text Detector[J].Computervison and pattern recognition,2017:2642-2651.

[13] He P, Huang W L,He Tong, et al. Single shot text detector with RegionalAttention[J].International conference on computer vision,2017:3066-3074.

[14] Jaderberg M,Simonyan K, Vedaldi A, et al. DEEP Structured Output Learning forUnconstrained Text Recognition[J]. Eprint Arxiv,2014,24(6).

[15] Sutskever I,Vinyals O, Le Q V, et al.Sequence to Sequence Learning with NeuralNetworks[J].neural information processing systems,2014:3104-3112

[16] Yang X, He D F,Zhou Z H, et al. Learning to read irregular text with attentionmechanisms[C]//The 26th International Joint Conference on ArtificialIntelligence Melbourne:IJCAL,2017:3280-3286.

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

发小红书推广免费获取该资料资格。点击链接进入获取推广文案即可: Ai一键组稿 | 降AI率 | 降重复率 | 论文一键排版