复杂环境下基于SegLink的离线文本检测技术研究开题报告

 2021-12-27 20:39:48

全文总字数:4697字

1. 研究目的与意义(文献综述)

从复杂场景图像中自动提取其中的文字信息,成为计算机视觉、模式识别、文档分析识别等技术方向的一个研究热点。复杂场景,主要是指自然场景下情况比较复杂,例如像街边的广告牌、产品包装盒、设备上的说明、商标等等,存在背景复杂、光线忽明忽暗、角度倾斜、扭曲变形、清晰度不足等各种情况。文本检测是将图片中的文字部分区域定位出来的过程。复杂背景下的文本检测已是图像处理的一个热点和难点。复杂背景下的文本检测有着字体的变换,大小,颜色,方向变换以及类字符图案等一些干扰,复杂的背景或者光线的变化都会导致图像中文本的失真和变形。为了在复杂场景下实现对文字的检测,本课题以理论为基础,进行基于seglink的离线文本检测技术研究。

传统的光学字符识别(ocr)软件仅用于文档图像。文档图像一般通过高精度扫描得到,具有分辨率高、背景简单等特点,文字识别的难度较小。相比之下,复杂场景图像更加复杂,文本检测与定位更加困难。普通文档布局格式通常相对固定,内容以字符为主;而复杂场景图像中的文本没有明显的布局特征与规律可循,可能在图像中任何不确定的位置出现。普通文档图像背景通常比较单一,往往为白底黑字;而复杂场景图像中的文本背景错综复杂,可出现颜色的变化、噪声的叠加及光照亮度的变化等。普通文档图像一般是由光电扫描设备获得,几乎不会引起几何变形;而复杂场景中的图像,受移动终端设备的拍摄角度、光照均匀度等因素影响,会发生几何变形或透视变形等。

随着计算机技术、人工智能和思维科学研究的迅速发展,图像处理技术日益向更深层次拓展,人们开始研究如何利用计算机系统来模拟人类视觉系统,按照人类视觉认知过程来解析图像和理解外部世界。而自然场景图像中的文字包含了很多重要的语义信息,如路牌上的街道名字,商店招牌上的店名、广告牌上的文字、产品包装上的文字等,这些文本字符对场景视觉信息的表达具有重要价值,是描述和理解场景内容的关键线索。因此将场景图像中的文字抽取出来,有利于场景图像的内容分析、检索,可以广泛应用于机器人视觉和盲人导航等领域,而文本检测用于确定场景图像中的文本区域,是进行精确文本抽取的前提,具有重大的理论意义和广泛的应用前景。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

2. 研究的基本内容与方案

本文复杂环境下离线文本检测技术是基于seglink来研究的,cvpr2017的一篇spotlight论文《detecting oriented text innatural images by linking segments》介绍以一种可以检测任意角度文本的检测算法,我们一般称这个算法为seglink,这篇论文既融入ctpn小尺度候选框的思路又加入了ssd算法的思路,达到了当时自然场景下文本检测state-of-art的效果。seglink是一种基于连接文字段的自然图片中多方向文本检测方法,文字段和连接是该检测方法中关键的两个步骤,文字段指的是在图片上划分出许多单个多方向的包围盒区域,它们包围着一个文字条或者单词的一部分;连接指的是将相邻的字段连接起来,意味着它们属于同一个单词或同一句话。文字段和连接合起来使用一个端到端训练的全卷积神经网络以多种尺度进行等间隔地检测。最后的检测结果是先连接多个文字段组成新区域,然后对这些新区域进行组合而得到的。该检测方法相对于现有技术在准确率、速度和模型简易度这些方面都取得了卓越的效果,效率高且鲁棒性强,能克服复杂的图片背景,另外也能检测图像中非拉丁文字的长文本。

本文将利用seglink模型将每个单词切割为更易检测的有方向的小文字块(segment),然后用邻近连接(link )将各个小文字块连接成单词,进行文本行的检测。首先是检测生成一个一个的segment,这些segment是文本行的一部分,可能是一个字符,或者是一个单词,或者是几个字符。然后通过link将属于同一个文本行的segment连接起来。link是在两个有重叠segment的中心点进行相连。通过合并算法,将这些segment、link合并成一个完整的文本行,得出完整文本行的检测框位置和旋转角度。其中,segment(切片)、link(链接)是seglink模型的创新之处,该模型不但学习了segment的位置信息,也学习了segment之间的link关系,以表示是否属于同一文本行。

seglink方法的优势是多方向,多语言,速度快,精度高,易训练,可检测任意长度(单词或者文本行),增加了角度的检测,对于各种角度的文本检测具有很强的鲁棒性。但该模型也存在不足之处,例如segments和links的阈值α和β需要人工设置;不能检测间隔很大的文本行,因为相邻segment之间主要是通过link来连接,文本相距太远时就会效果不好。另外,不能检测形变或者曲线文本,这是因为最后在做合并算法时采用的是线性回归的方式,只能拟合直线,无法拟合曲线,但也可以通过修改合并算法,来实现对变形、曲线文本的检测。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

3. 研究计划与安排

第1周—第3周搜集资料,撰写开题报告;

第4周—第5周论文开题;

第6周—第11周撰写论文初稿;

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

4. 参考文献(12篇以上)

[1]、孙峰丽. 改进的超像素和graph cuts的图像分割方法研究[d]. 山东师范大学, 2016.

[2]、李景, 金花, 刘金刚. 一种基于英文字符的斜体检测方法[j]. 计算机应用与软件, 2015(3):192-195.

[3]、钟子喆, 韦军, 朱凤印. ocr汉字识别系统获取纸质图片资料文字信息技巧[j]. 现代交际:学术版, 2017(16):191-192.

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

发小红书推广免费获取该资料资格。点击链接进入获取推广文案即可: Ai一键组稿 | 降AI率 | 降重复率 | 论文一键排版