一篇论文中提出的部分满意度的要求为精度外文翻译资料

 2022-12-08 11:12

英语原文共 51 页,剩余内容已隐藏,支付完成后下载完整资料


加利福尼亚大学,圣迭戈

特定图像文本识别

一篇论文中提出的部分满意度的要求为精度

致谢

首先,我十分感谢教授Serge Belongie,他在整个2年始终如一的帮助我做研究工作。也感谢鲍里斯把边卡博士和彼得做关于我写的很有用的建议,提高框架的能力。我的研究生工作是因为我的兴趣而开始的。

在dlagnekov Louka的硕士论文,“认识汽车”(dlagnekov和belongie,2005)。Louka为我提供了有关我工作有用的资源。这项工作是由美国国家科学基金会的资助部分资金(#生涯0448615)。

论文摘要

特定图像文本识别

通过

教授本哈伊姆

计算机科学硕士

加利福尼亚大学,圣迭戈,2008

David J. Kriegman, Chair

本论文解决了阅读图像文本的问题,我们将这里定义为一种机器印刷文本的数字图像。图像的车牌,标志,和扫描的文件属于这一类,而不是手写的图像。自动读取图像文本是一个很好的研究的问题,属于光学字符识别(OCR)更广泛的范畴。几乎所有的在这个域中的工作是从图像中的字符分割,并进行分类,以确定每个字符。这种传统的方法是不是最适合特定任务的识别,如阅读车牌,扫描文件,或高速公路的迹象,这往往是模糊和质量太差。在这篇论文中,我们应用了一个提高框架的字符识别问题,这使我们能够避免字符分割。这种方法使我们能够读取模糊,质量差的图像,很难分割。当有限制的域,有电子一般是大量的训练图像可用。我们的做法得益于这个,因为它完全是基于机器学习。我们执行对低分辨率手工标记的数据集的实验执行的车牌图像,表现出非常令人鼓舞的结果。此外,我们发现,如果有足够的领域知识,我们可以避免手工标签的例子,通过AUT的艰巨任务自动合成训练数据。

第1章 简介

随着图像和视频在互联网上变得更加丰富,有越来越多的对这些海量数据进行自动分析的需求。在我们的“后911”的世界,很明显,对政府机构和安全公司来说自动分析监控录像是一个高优先级的需求。我们分析了图像和视频的方法之一是汽车自动读取图像的文本包含在其中(参见图1.1的图像文本的例子)。这已被证明是在车辆表面价值监测与如车牌识别技术在全球范围内的操作。此外,阅读图文如互联网上的标志和产品标签可以转化为利润通过针对搜索公司的针对性广告。对于字体和图像质量的变异性,准确地阅读图像文本是一个开放的研究问题。即使在限制车牌识别领域,只有公司要求精度水平的95%,这意味着有改进的余地(2003纽鲍尔和泰安,)。

1.1问题陈述

有一个共识,大部分的文学图像文本识别分为两步-字符分割和字符分类(Naito et al.,2000; Yu and Kim, 2000; Chen and Yuille, 2004)。字符分割在许多情况下可能会失败,如光线不足,运动模糊,字符间距小,分辨率低,背景噪声高。同样,字符分类是困难的,由于潜在的大量的字体和自然变化的外观特征。虽然这两个步骤的方法,在阅读不同环境中的所有字体的通用文本效果还不错,但很多时候我们希望在一个特定的域内阅读文本。机器学习非常适合特定任务,因为应用程序通常有一个大自可用的训练图像的数量。我们使用Boosting框架基于Viola和琼斯(2001)学习性质分类,允许我们做任务特定的图像文本识别。为了我们的系统学习,需要大量的正面和负面的经验,手贴标签的图像是一种来收集这些例子的方式。手贴标签可以非常耗时,因此,为了减轻负担,我们发现它也可以合成训练数据。

图1.1图像文本的例子。从车牌,到符号,并且不同程度的图片质量和分辨率,跨越多个领域的图像文本来扫描文档。

图1.2:手写体不被视为文字。手写的文字与图像文字差距较大。

1.2论文的结构

在2章讨论了以前的方法来读取图像文本。在3章中,我们提出我们的方法,并讨论其优点和缺点。在实验和一个基线比较结果。在4章中给出了一个新的算法。最后,在5章讨论了提高效率的方法和建议及更进一步的研究。

第2章 相关的工作

自动读取机印刷文字早于电脑,回到1935当古斯塔夫Tauschek第一次获得的专利:使用模板匹配的机器照片探测器.从那时起,随着计算机、扫描仪和照相机的发展,在这个问题上已经做了大量的工作。这部分内容涵盖了常用的图像文本识别方法。

2.1传统的方法

在过去的几十年中,大多数的图像文本的阅读算法的核心,一直是字符分割,字符分类。他们在很大程度上被视为单独的问题,并在依赖性的讨论。

2.1.1字符分割

字符分割是确定区域的图像的过程,代表人物(见图2.1)。一种字符分割的老方法是投影分析,在(Casey and Lecolinet, 1996)中阐述,并将其应用于车牌(Zhang and Zhang, 2003)。这个过程包括像素值相加,在一个维度,在山峰和山谷的投影给角色定位。然而,存在大量的背景噪声和模糊,或如果有小间距字符时出现问题。更复杂的段信息技术是将一种二值化然后连接成分分析的分离能力。一种自适应二值化技术介绍(Niblack,1986)是用(Chen and Yuille,2004)抑制信号背景噪声。自适应技术选择一个阈值T,通过观察每个像素强度统计每个区域的窗口。结果是一个二进制图像研究通道可能包含边界和其他背景噪声,因此,连接组件分析,然后用于识别字符。然而,由于(Chen and Yuille, 2004)表明,该方法在图像质量差或字符非常模糊时会失败(见图2.2)。这些分割方法来自特别的方式选择,不从训练数据中学习分割图像。因此,这些方法可能是有益于阅读大量的图像文本域,但对于特定任务的区域,他们不是最佳的。

图2.1:字符分割是大多数文本阅读算法的第一步

图2.2:从 Chen and Yuille (2004)可知,当图像太模糊,字符分割会失败

2.1.2字符分类

虽然在字符分割方法很少包括机器学习,但近年来朝其性质分类使用出现了强劲走势。当一个单一的字体是本在数据上,就像是在读韩国车牌的情况(Yu and Kim, 2000),匹配模板可以准确且快速。然而,当有大量的噪声,闭塞,和不同新台币字体,机器学习可以变得很强大。将神经网络对车牌被成功的方法(Nijhuis et al.,1995;Chang et al.,2004)和退化特征(Namane et al., 2005)。最近图形化模型已被使用,结合图像间的相似性特征,可以提高识别的准确性(Weinman and Learned Miller, 2006)。这些学习方法都需要进行特征提取的训练图像的第一步。一种基于Gabor滤波器的特征提取方法已成功地应用于(Wang et al., 2005; Weinman and Learned Miller,2006)。但是,特征提取的过程是不明显的,并且通常独立学习算法的使用。因此,存在选择一个特征提取方法的学习算法的额外负担。

字符分类也可以看作是一个形状匹配的问题。 Belongie等 (2001)使用形状上下文来描述兴趣点上的字符,并使用这些描述符查找对应于其他字符,然后估计的图像之间的变换。这项工作扩展到在(Mori and Malik,2003)阅读视觉CAPTCHA系统工作。这样的方法可能是缓慢的,而对于模糊的图像,所以难以通过形状来描述局部区域。

2.2其他途径

虽然大多数的研究一直遵循上述的惯例,但出现了更紧密地涉及到我们的工作方式。使用模板物体检测方法取入(Takahashi等人,2007; Dlagnekov和Belongie,2005),其中各个字符使用模板匹配方法如归一化互相关(NCC)搜索的图像中。这种方法是最类似于我们并用作用于我们的方法的基准。

图2.3:字符分类是一个图像区域分配一个字符标签的过程

  1. 我们的方法

在我们的方法图像文字识别,我们搜索的图像字母表中的所有字符。这可以被认为是在整个图像,并在每个增量为详尽滑动的小窗口,询问什么在该窗口中存在的字符,如果有的话。我们采用升压框架目标检测要做到这一点(Viola and Jones, 2001).基于Adaboost的框架,由于它的精度和速度上的人脸检测而人气大增。 Adaboost算法(Freund and Schapire, 1997)是一种通过组合许多弱分类器使机器学习算法学习(见Algorithm1)的一个大分类。Viola-Jones的学习框架已扩展至其他类别的对象,如车牌(Dlagnekov和Belongie,2005),自然风光文本(Chen and Yuille, 2004)的工作。虽然Freund and Schapire(1996)适用于Adaboost的识别字符,它们的实验在洁净且分段数据情况下进行的。我们还没有找到它适用Viola-Jones框架来阅读文本的任何工作。下面,我们讨论了我们的方法所需的假设,详细介绍升压架构,并给出该方法的优点和缺点。

算法1:

输入:T,P,数据集( )...( )以(-1,-1)及其他为例

  1. 初始化分配,,,其中m和l均为阳性和阴性的数量,两者轮流。
  2. 当t从1到t时
  3. 找到:X → {minus;1, 1}使产生最小误差。

  1. 当时停止
  2. 计算,是分类器的加权误差率
  3. 更新:,归一化因子,使得
  4. 结束
  5. 输出的最终的分类:

3.1假设

由于我们的做法是具体的任务,我们假设某一领域的知识存在关于图像的文字得到认可。域的知识可以隐式集合中的训练图像来表示,或者其可以是在明确的图像特性的形式。的领域知识的例子可以是环境参数,如对比度,照明和噪音。此外,字体的知识是因为在不同字体的字符之间的视觉上的差异很重要(见图3.1)。显然,更多的限制所访问的,将得到更好的结果。然而,如果使用良好的训练数据,我们的做法是足够强大的处理高度的图像文字的变化。

图3.1:在多种字体显示的字母“G”。

3.2学习框架

升压架构学习字母表中的每一个字符一个单独的分类。一旦分类器了解到,阅读文本可以通过运行来完成新的图像上的所有字符分类。由于字符分割避免这种方法,目前还不清楚如何选择正确的大小的窗口扫描字符图像。我们称这个过程为尺度选择,让它特定图像文本域的范围内加以解决。假定读者熟悉(Viola and Jones, 2001)引入的框架。下面我们来讨论创建一个文字识别系统,它由手工贴标签或图像合成,培训和检测的建议流程。

3.2.1手标签和图像合成

由于训练过程中需要肯定和否定,手贴标签的例子很多标识样本,以确定该地区在存在单个字符是一种选择。对于字母表中的每个字符,人类必须通过一组图片文字的迭代并围绕该字符的每个实例的边框。因为这可能是非常耗时的,另一个选择是自动合成训练数据。为了合成训练数据,必须有足够的领域知识。在本文中,我们合成车牌图像,并在第4章进一步讨论这个问题。一旦手标签或图像合成完成后,我们已经准备好训练我们的系统进行分类字符。

3.2.2培训

一个个性分类器,通过训练Adaboost的分类(Viola and Jones, 2001)的级联教训。我们选择强调框架的三个方面是采用先验,引导和随机特性,因为他们获得优异性能的贡献。

在原始Adaboost算法,相等的权重被分配给所有的实施例。然而,如果我们具有比阳性更底片训练,是有意义的分配权重成比例的肯定和否定(Viola and Jones, 2001)。再者,在级联的前几个阶段的数目,我们希望Adaboost的聚焦在积极正确地分类,对底片进行正确分类。其结果是,Adaboost算法现在有两个参数,轮数,和一个前。现有为0和1的表示什么的权重的部分应被分配给正例之间的值。例如,现有的0.9告诉我们,所有m个阳性将与配重件被初始化,而所有个底片会具有重量升被初始化(See Algorithm1)。这种额外的参数给了我们在训练过程中更多的灵活性,使我们能够实现更好的性能。

为实现良好的精度另一个重要方面是在级联引导。在训练级n之后,用于训练阶段n中的底片被丢弃和部分分级器(阶段1 ... n)被用来在训练集中看不见底片进行分类。只有错误分类的底片被添加到集合底片的将在下面阶段中使用。引导的过程中可以让我们看一下比较困难的例子作为在级联的级电平上升。

在级联的每个AdaBoost分类由基于随机特性决定残端分类的。我们使用升压架构能够很轻松地学到很多类,而不仅仅是单个字符的对象。有人可能会认为,某些对象类需要特制的功能集。Chen 和 Yuille(2004)认为,“功能集的选择是算法的成功和透明度是至关重要的。”然而,由于Adaboost算法从一个大组弱分类选择最佳分类,学习过程也做特征选择。我们以所建议的办法(Dollar等,2007),我们正在探索特征空间可能是无限的,而而不是手各具特色的特殊功能对于一个给定的任务,我们生成一大套随机功能,让Adaboost的做特征选择的工作。

大集功能产生并传递到Adaboost算法,在决定树桩进行培训和权重调整。最后,Adaboost算法选择最佳的功能,并重复在所述级联的下一阶段的处理。注意,在这个过程中,我们不仅学习一个字符分类,我们也使用的Adaboost选择我们的特色。产生一大套随机特性的过程在训练中只进行。一旦分类据悉,仅由Adaboost算法选择的功能在计算数据看不见。

3.2.3检测

一旦我们训练的一个分类为字母表中的每个字符,我们已经准备好在新的映像运行他们阅读的

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[31859],资料为PDF文档或Word文档,PDF文档可免费转换为Word

您需要先支付 30元 才能查看全部内容!立即支付

课题毕业论文、开题报告、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。