基于FPGA的盲人阅读器设计开题报告

 2021-08-08 12:08

全文总字数:2515字

1. 研究目的与意义

根据世界卫生组织统计:中国是全世界盲人最多的国家,约有500万盲人,占全世界盲人人口的18%。每年在中国约有45万人失明,如果按照目前的趋势继续保持不变,到2020年预期中国盲人将增加4倍。在当今社会中,99%的文字信息都是以可视化形式出现,而盲人以及视力障碍人士作为一个弱势群体由于视力缺陷,他们无法以像正常人一样以最直观的方式读书、看报来获取纸质文字信息,这在很大程度上限制了他们了解现在的社会和世界,这是盲人群体文化水平相对低下的重要原因之一。

我们需要借助盲人阅读设备将纸质文字资料内容转换为语音信息。目前,盲人阅读设备中印刷体字符识别和文本语音转换技术的实现大都基于PC平台,但其功耗、适应性以及移动性都存在局限性。随着科技的发展,低功耗、高适应性、低成本、高集成度已经成为电子产品的发展趋势。PC平台远不能满足这些要求,随之而来,FPGA、DSP等技术越来越广泛地被应用。采用SOPC技术的FPGA具有低功耗、小型化、高速度、高可靠性、开发周期短、开发软件投入小、标准产品不需测试及可实时在线检测、可现场编程等优点,并且随着现代工艺的发展和提高,其芯片本身的成本越来越低,这些优势使得FPGA的应用领域越来越广泛, FPGA被广泛使用在大数据量、高速度的信号处理领域中。

文设计了一个基于FPGA的盲人阅读器,以DE2开发板作为硬件平台,配合以互补氧化金属半导体图像传感器对纸质印刷体文字资料进行采集,显示绘图阵列(VGA显示器)显示图像采集和处理的结果。当拨动相应的功能开关时,系统将通过音响输出识别的文字的语音信息。

2. 国内外研究现状分析

在二十世纪初,西方国家已有很多科研人员致力于盲人辅助阅读设备的研究。第一台盲人光电阅读装置诞生于1912年,之后每十年就会出现大的改进。阅读器最初的功能是使盲人通过听觉或触觉获知印刷材料的内容。至六十年代,文字图像识别技术已趋于成熟。1966年,mauch 实验室发明了触摸式输出端的盲人阅读器 visotactor[2,3]。在使用该设备时,使用者通过手指感知振动次数和振动时间来获得相应字母的信息。随着文字识别技术和语音合成技术的日趋成熟,盲人阅读器也随之发展。

目前,盲人阅读器可大致分为两类,第一种是将文字翻译成盲文的阅读器。在国内,这类阅读器的典型代表有设计师贾梦莹和包海默设计的盲人文字阅读器。清华大学自动化系开发研制出一款名为盲人电子阅读器的设备[1],该设备是一个触屏装置,它通过usb借口与个人计算机连接,然后在触屏上以盲文形式显示电脑中的文字[7],盲人只需触摸阅读器的面板,即可获取计算机中的文字信息。第二种是将文字翻译成声音的阅读器。目前比较成熟的设备有ray kurzweil在美国发明的一个能使盲人阅读任何文本的装置[9],它由数码相机和一个与相机结合的小型嵌入式计算机图像识别软件组成。它本质上是由数码相机来扫描印刷品,配合一个个人数字助手(pda)来处理得到的文本,将文字内容转换成声音信号输出,盲人就能通过听的方式获取到他想阅读的信息。intel研发了一款名为inter reader的盲人文字阅读机[10],它的工作原理与kurzweil发明的阅读器相似,不同点在于输入设备不是数码相机而是扫描仪,通过光学字符识别扫描功能将文本转换为声音。

由于印刷体汉字识别和中文语音合成技术研究的起步比较晚,所以我国对盲人阅读器领域的研究也较国外晚很多。我国在70年代末开始进行汉字识别研究,目前包括汉王的尚书五号、六号,汉王表格自动录入系统,蒙恬ocr文字扫描识辨系统,清华文通的th-ocr97、th-ocr2000,清华紫光的紫光ocr。这些软件在文字识别方面,从识别速度和识别率上看,基本上都达到了实用的效果[6]。到目前为止,我国的ocr技术正在快速发展。我国在80年代开始进入汉语语音合成领域的研究。1999年,在口语处理国际会议期间,还举行了语音合成系统的评比,有十几种语言的几十个tts系统参加,其中有5个汉语系统[11,12]。现如今,tts技术已经有了飞跃性的发展,不仅仅是合成的语种方面得到了很大的丰富,在合成语音的可懂度和自然度上也取得了很大的进步。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

3. 研究的基本内容与计划

本文所设计的是一个基于FPGA的盲人阅读器,主要将纸质印刷体文字资料通过字符识别,将文字内容转换为声音输出。该系统采用图像传感器对文字资料进行采集,将采集后的图像显示在LCD显示器上,通过文字图像预处理以及特征提取、匹配识别和语音转换,最后通过音响设备将文字内容以语音形式输出。本系统需要实现以下几个功能:图像数据采集、图像数据显示以及图像处理结束后,可通过开关控制将文字内容以语音的形式输出。所以,本文设计的盲人阅读器可分为四个模块:图像采集模块、图像缓存模块、文字识别模块和图像显示模块。其中,图像采集、图像缓存和图像显示这三个模块用verilog硬件描述语言实现。在文字识别模块中,需要进行文本图像的预处理,包括灰度化、二值化、倾斜校正、行字切分、归一化、细化等。将在论文中分析对比各种方法,以提出适合文本图像的预处理方法,结合多种图像处理技术,改进图像的处理效果。

4. 研究创新点

摄像头采集图像一般会存在随机噪声,会影响文本识别。

中值滤波是一种非线性滤波,该方法将待处理像素及其邻域内所有像素灰度值按照从小到大或从大到小的顺序排序,取中间值作为待处理像素的新灰度值,以此来达到平滑去噪的目的,该方法的作用是使不同灰度的像素点经处理后更接近于其临近值[16]

它够在消除随机噪声的同时保留图像中较多的细节,防止图片变模糊。

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

课题毕业论文、开题报告、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。