新型平面/计算机接口:二维条码外文翻译资料

 2023-01-31 03:01

英语原文共 7 页,剩余内容已隐藏,支付完成后下载完整资料


新型平面/计算机接口:二维条码

Theo Pavlidis

Symbol Techonlogies

Holtsville, NY 11742

USA

t.pavlidis@ieee.org

摘要

二维条码已经出现了一段时间,但直到过去几年他们并没有达到广泛的应用。例如包括出现在所有美国联合包裹服务公司的包裹上使用的称为'Bulls Eye'的条码,和那些出现在几个州的驾驶执照上的PDF417二维条码,邮资的计算,和身份证明认证文件等。本文涵盖了这些条码的基本原理,以及关于扫描读取这些二维码的问题和相关的应用举例,本文还会涉及到这些条码是如何与基于OCR的文档阅读关联起来的,以及现代技术是如何相互补充的。

介绍

在一台计算机连接到另一台计算机这样的网络的扩散下已经减少了扫描文件的需要,但并没有消除它,也永远不会。总是有计算机和物理对象之间的接口的需要。一个主要的应用类是在航运业中。一个包必须包含一个人类可读和计算机也可读的标签。后者不需要打印,它可以是射频识别(RFID)的标签。WID标签有许多超过印刷标签的优点,但他们也遭受着一个主要的缺点:成本要高得多!即使成本变低到每标签50美分,使用它们来标记低成本产品也是不实际的,或者是当运输成本低于如$ 5时进行标签这些物品。(现如今WID标签被广泛地用于跟踪这样的大项目,如机动车辆,特别是在扫描是无法实现的情况下。)与此相反,在印刷标签上添加一种机器可读代码的成本(少于一美分)微乎其微。因此,机器可读印刷标签的需求是值得坚持完善的。

早期的标签系统是利用特殊的字体,如OCR A.这样的系统在1970年代初被条形码所取代,主要是因为建立OCR光学字符识别比基于条形码阅读器读取更容易。 (我们将在本文后面重述这一点)。尽管条形码为各种应用提供了一种解决方案,但它仍受限于一个很重要的因素。它们编码比特的数量有限,因此,它们只能作为数据库中的索引信息。这一限制(和成本相对较高的RFID)导致标签可容纳一个完整的数据记录的二维码仍是容易开发为机器可读的。

图1 UPS的MaxiCode

虽然大家都已经看到条形码,越来越多的人开始熟悉的二维码,让我提供两个例子。图1显示了联合包裹服务公司(UPS)的MaxiCode,用于跟踪包裹。这样的二维码可以看到在家里收到的网购的包裹。

图2 纽约驾驶执照上的PDF417标签

图2显示了我驾照背面的PDF417条码。代码发明于Symbol Technologies实验室,相比被限制为封装轨道的UPS MAXICODE,PDF417已在各种应用中使用,;例如最近的“电子邮票”。

鉴于OCR的进步,人们可能会问,为什么我们用特殊的代码,因此需要两个标签,一个机器可读一个人类可读。其原因是,特别设计的符号持续提供着比OCR更好的性能。对于更深层次的原因是,人类的读者在很大程度上依赖于较高水平的语言文字内容,这些很难在一台机器来实现。我最喜欢的例子说明了拼写检查的局限性(低水瓶语言文字内容)。常常发现,在英语字典,date错误地解读为dele。但是,如果该文件是商业信函,字date远比dale更容易,而相反的可能是一首诗如此。条形码和二维码体系由具有预先定义的结构使得误读不大可能,提供高水平的语言文字内容的替代品。其结果是,性能方面在给定电平解码条形码和二维条码所需的算法比的OCR算法简单得多。特别是线性条码阅读器可在8位微型处理器,在大批量生产实施时成本约2 $一块。

在本文的其余部分我会回顾普通条形码和一些二维码的编码方法,然后我将讨论当前现状的应用以及其潜在的应用。

线性条码

线性条码,通过条码本身和空间的相对宽度对信息进行编码[1]。每个码字包含固定数量的元素,并且扫描期间计算宽度最窄元素的比例。为了提高噪音的弹性将附加约束被强加。在所谓的增量编码的归一化宽度的总和被整合为一个固定的整数值。在所谓的二进制码中只有两个宽度值是允许的,窄和宽元素数量是固定的。

使用长度比确保条形码是自定时的,即它们可以在没有绝对大小纸信息的时候进行解码。其巨大的高度也允许进行较为明显的倾斜扫描。这样的优势是低信息密度。对于一个给定的正方形区域,可以被可靠的分为n2个元素,即有n2个存储容量。如果相同的区域被用于条形码,那比特数将只有n的线性函数大小。可以计算出[1],最好期望是:

当C(n,m)中m项大于n项时,这个竖直将显著小于n。例如 n=7,值为log2(20) 即4.32。

条码解码是繁琐的,当他们尺寸很大时,它们会被小心地打印,并且高质量扫描器(适当使用OCR)被使用。一个简单的解码器可以完成于一两天。问题在现实条件下变得困难得多。在许多情况下,空间的封装是非常宝贵的,条形码都应印有非常小的尺寸,最窄元素低至5mils。廉价打印机的质量差的符号可能由于处理能力原因产生的进一步恶化。最后,成本压力导致需要使用相对低分辨率扫描仪。所有这些因素使得条形码解码成为一个具有挑战性的问题。参见[2]以获得更多关于条码解码的现代技术。有关条码技术的更多信息可以在[3]中找到。

PDF417 条形码

线性条形码的低信息密度导致出现能存储大量码字和空间的堆叠条码的设计。不仅垂直尺寸将被使用,包括B(n)的值也将被更接近为n。在的堆叠条码设计中的主要挑战是行分离,特别是当手持式激光扫描器扫描标签(符号)时。

PDF417(图2和图3)是设计提供一种比线性条形码有显著较高密度的、同时保持其大部分优点的堆叠增量条形码。每个码字有4个码字和4个空格,标准化宽度之和被限制在17[4-8]。

图3:通过放大PDF417条码来显示符号的详细结构

PDF417采用的行分离问题的解决方案是对每个三个相邻的行使用三种不同的编码方案。特别是,群集数计算每个码字。让xi是元素的宽度(x1是第一条,x2第一空白,以此类推)。然后将簇号被定义为

符号系统仅使用码字簇号为0,3和6的码字。第一行的字具有簇编号0,与第三个6的第二个3的,第四个0,等等。这既提供了垂直自计时又提供了错误检测。这样一来编码行仅需要是最窄元素的三倍高。

为了形成一个Galois域(以及因此使用一个Reed Solomon纠错码),PDF417选择从每个群集的基本级别(低级别)的929图案编码,每个码字相关联,仅在0至928范围内的排列数。这提供了在应用中使用PDF417则拥有相当大的灵活性。偏移字用于几种模式之间切换,其中如一些预定义的,可定制的等。

每一行包含一个由宽的黑色间隔组成的开始关键词和一个停用关键词,后面衔接几个狭窄的间隔。因为这些在所有行都是相同的,都①黑色的柱为界,如图2和3。

一个PDF417标签的最大容量为1108字节,这可以被表示为1850个ASCII字符或2710位码字。如果使用数据压缩,文本/数值容量可以更高,但1850 ASCII字符对应至约500英文单词,这是一个页面的主要部分。这样的PDF417标签的大小取决于解码器能够达到的分辨率。如果可以由解码器中看出的最小长度是10mil,则一个条码可以存储每平方英寸250个字符。如果最小长度为6.6mil,那么容量是每平方英寸500个字符。因此,文本(约2500个字符)的网页中的内容可以存储在3平方英寸,页面大小的一小部分。

因为条码符号可以编码二进制数据,因此可以用来编码生物测定,包括语音样本或一个人脸的照片。(Symol Technologies公司的员工的工作证上有一个包含该人的照片的PDF417标签。游客临时胸卡包含建筑物的图片。)

使用纠错允许则具有大面积丢失的标签读取,如图4。

图4:损毁的PDF417由于具有Reed-Solomon纠错码仍可被读取

对于代码的理论分析见文献[9]。也可以在[4]和[3]的附录H中找到有关代码的其它细节。

MaxiCode 条形码

MAXICODE[10,11]是专门为美国联合包裹设计的,旨在允许以高达150米每分钟的输送带速度阅读。它是基于六边形网格,其中心是由三个同心黑圈(图1)的靶心占据。靶心图案具有的FFT下一个不同的签名,因此它不仅可以用来可靠地定位在扫描的图像上,也是拥有自计时的标签。

每个标签(符号)有33个行,在30和29(因为分子结构呈六角形)之间的宽度交替。六个六角形元素在同一行形成一个码字。因为靶心占用的空间,只有144码字。每个单元可以是黑色或白色,因此,每个码字有6位。为了编码所有256八位型态的MAXICODE使用五个字符集。字符集合设置为A时编码大写字母、十位数字和某些标点符号。字符集合设置为B时,编码小写字母和剩余的标点符号等。每个组包含用于集之间切换移的字符。

图5:MAXICODE的一个码字例子

图5示出MAXICODE一个码字(当然,细线在标签上不打印的)的图像。在这种情况下,比特码型是010010,其在字符集A对应于R,在字符集B对应于r。

规定标签代码为固定大小(约一平方英寸),以及六边形的大小也要固定。Reed-Solomon纠错方案在两种安全级别选择使用。由于固定的尺寸和纠错码字的额外占用,每标签的数据字最大数目是93比特,或558比特。

可在[3]的附录K找到有关代码的其他详细信息。

DataMatrix 条形码

一个DataMatrix[21]标签具有一个棋盘型结构,且每个正方形通过颜色表示0或1。如在图6的两个例子中所示的方标签的强加结构框架。右边的图是一个实际的DataMatrix标签的副本,而左侧的数字是详细表示了符号的结构。两侧(由在左边的12标示)是全实心的黑色和其他两个包含交替的黑(16)和白色(18)的元素。实心的面被用于定位,其它两个为自同步。

图6:左:如图所示一个DataMatrix符号的规范的相关专利[13]

右:一个实际的DataMatrix标签示例

DataMatrix二维条码标签的实际尺寸是相当小的,如在芯片标记这样的应用领域,以及其它工业部件的使用。公司用户包括Alcatel和Mercedes-Benz。卷积码用于纠错。通常每个标签包含不超过60个字符。

可在[3]的附录J中可以找到有关代码的其他详细信息。

为什么识别条形码比识别英文字符简单

读取打印的字符需要二维形状的分析。在此之前,程序可以运行的系统还必须确定像素是否属于前景(通常为黑色)或背景(通常为白色)。后者是一个不寻常的问题,是由任何扫描系统的点扩散函数导致的。因为传感器包括其相邻区域的颜色窄区域显示为灰色。

图7:字符与条码的部分不同

例如,在一个小写的“e”(见图7)中,很细的中间笔画横和上面的笔画可以具有相同的灰度级权的差距,因此没有将它们分开的阈值。在最坏的情况下,这可能会导致将“e”被归类为“o”,即另一种常见的母音,这也是可能满足所施加的语法约束的。

有很多文献是关于阈值选择的,说明了二值化问题的难度。与此相反,二维符号的二值化容易得多。符号的概述可以提供有关规模的一些信息。这可以从PDF417标签的开始端和结尾端、MAXICODE标签的靶心眼上、或在一个DataMatrix二维条码标签的框架上来获得。比预期按比例的最小间隔还小的灰色区域可以被完好地分配到周围区域颜色上。较大的灰色地带可能被分配周围的黑色或白色区域的相反的颜色。它也可能将灰色区域映射到的黑色和白色区域的组合的周边区域[15]。在线性条码二值化中,甚至可能完全[2,14-17]避免。不仅二进制化符号比用OCR更容易,而且在识别过程后的下一步骤不需要二维形状分析。PDF417提供了开始/停止杆,DataMatrix二维条码提供了框架,这些都是关于条码的取向信息,从而使扫描的方向更容易识别。对于MAXICODE有三种可能的边缘方向,通过他们即可推断出正确的方向。在这两种情况下读取标签的问题是减少寻找长度比(对于PDF417)或黑白元素(对于MAXICODE和二维条码)的时间。由于所使用的编码方案而增加的冗余,任何误读都将立即识别。

由于以上种种原因,二维条码成为了更为可靠的手段,而不是OCR用于连接印刷材料的电子市场。二维码解码已经是一个已解决问题,而研究的主要问题是如何在新的应用程序使用的技术,这很可能是现在的事实。

常见应用

图8:巴西运营商的运输说明标签采用PDF417

除了航运产业,PDF417在医疗行业中也使用频繁(例如,当实验室血液样品与患者信息被从收集现场运到执行分析而使用的标签)。应用越来越多的是政府文件,如驾驶执照(纽约,亚利桑那州,北卡罗来纳州,秘鲁,菲律宾等)和身份证(埃及等)。一个非常明显的应用是1996年奥运会的身份证使用了PDF417二维码。

图9:基于PDF417二维码的电子邮票样例

另一种应用类型涉及在有需要安全的加密情况。原始文本变换成二进制数据(例如,通过方法[18]),然后这些数据使用二维符号打印。这种方法通常是在e-stamp@服务使用。图9显示了将被使用的“电子邮票”,并从网站服务器(www.e-stamp.com)复制。

PDF417已被接受为中国标准,它是已在银行业务使用。通用汽车公司也接受它作为一个标准。

所有二维符号都可以用CCD扫描器读取,但只有少数二维码也可以通过激光扫描仪读取。PDF417

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[149883],资料为PDF文档或Word文档,PDF文档可免费转换为Word

您需要先支付 30元 才能查看全部内容!立即支付

课题毕业论文、开题报告、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。