基于DTW算法实现的孤立词语音识别开题报告

 2021-12-17 23:20:57

全文总字数:4213字

1. 研究目的与意义(文献综述)

语音识别技术,也被称为自动语音识别automatic speech recognition,(asr),其目标是将人类的语音中的词汇内容转换为计算机可读的输入,例如按键、二进制编码或者字符序列。与说话人识别及说话人确认不同,后者尝试识别或确认发出语音的说话人而非其中所包含的词汇内容。语音识别较语音合成而言,技术上要复杂,但应用却更加广泛。语音识别asr(automatic speech recognition)的最大优势在于使得人机用户界面更加自然和容易使用。

从开始研究语音识别技术至今,语音识别技术的发展已经有半个多世纪的历史。语音识别技术研究的开端,是davis等人研究的audry系统,它是当时第一个可以获取几个英文字母的系统。到了20世纪60年代,伴随计算机技术的发展,语音识别技术也得以进步,动态规划和线性预测分析技术解决了语音识别中最为重要的问题——语音信号产生的模型问题;70年代,语音识别技术有了重大突破,动态时间规整技术(dtw)基本成熟,使语音变得可以等长,另外,矢量量化(vq)和隐马尔科夫模型理论(hmm)也不断完善,为之后语音识别的发展做了铺垫;80年代对语音识别的研究更为彻底,各种语音识别算法被提出,其中的突出成就包括hmm模型人工神经网络(ann);进入90年代后,语音识别技术开始应用于全球市场,许多著名科技互联网公司, 如ibm,apple等,都为语音识别技术的开发和研究投入巨资;到了 21 世纪,语音识别技术研究重点转变为即兴口语和自然对话以及多种语种的同声翻译。

国内关于语音识别技术的研究与探索从20 世纪80 年代开始,取得了许多成果并且发展飞速。例如:清华大学研发的语音识别技术以1183 个单音节作为识别基元,并对其音节进行分解,最后进行识别,使三字词和四字词的准确率高达98%;中科院采用连续密度的hmm,整个系统的识别率达到89.5%,声调和词语的识别率分别是 99.5%和95%。目 前,我国的语音识别技术已经和国际上的超级大国实力相当, 其综合错误率可控制在10%以内。 [3]

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

2. 研究的基本内容与方案

本次毕业设计的主要内容是在Matlab平台上进行特定人孤立词的处理和识别。语音识别技术是人类的语音中的词汇内容转换为计算机可读的输入,并把语音信号转变为相应的文本或命令.

目标是通过MATLAB平台对一组语音信号的输入进行预处理及端点检测,提取特征参数,形成参考模块。通过MATLAB平台建立一个GUI界面,接着对一组语音信号的输入进行预处理及端点检测,提取特征参数,形成模板库。然后再对一组相同的语音信号输入进行同样的操作作为测试模块,利用DTW算法与模板库进行匹配,输出匹配后的识别结果。

基于要实现的目标,本人要具体研究下面的内容来实现这样的语音识别设计。

(1)调研,了解现阶段国内外语音识别技术的发展状况,查阅相应的文献资料;

(2)系统学习MATLAB的相关知识,学习相应的C/MATLAB语言,掌握MATLAB GUI图形用户界面设计的相关知识;

(3)掌握语音信号的预处理技术和特征参数的提取方法;

(4)研究与实现:DTW算法,特征参数的提取;

(5)研究与实现: 语音信号在识别阶段与参考模板进行特征匹配;

(6)研究与实现:在MATLAB GUI界面实现对孤立词语音信号进行操作识别。

2.2 拟采用的技术方案及措施

下面是本次设计的技术方案:

(1)语音信号输入和预处理的技术方案

语音信号的输入可使用wavrecord(n,fs,ch,dtype)函数录制,也可使用Windows的“录音机”程序录制成.wav文件然后使用wavread(file) 函数读入。语音信号的预处理模块一般包括预滤波、采样和量化、分帧、加窗、预加重、端点检测等。

(2)语音识别特征参数提取的技术方案

在本次设计中我使用MFCC的方法来提取特征参数。MFCC在一定程度上模拟了人耳对语音的处理特点,在Mel标度频率域提取出来的倒谱特征参数。MFCC参数具有良好的识别性能和抗噪声能力。

(3)DTW算法实现语音识别的技术方案

在孤立词语音识别中,最为简单有效的方法是采用DTW算法,该算法基于动态规划(DP)的思想,解决了发音长短不一的模板匹配问题。实验中对输入语音信号整体计算mfcc梅尔倒谱,然后截取其中语音部分的作为其函数值。然后以同样的方法计算需要识别的语音文件其语音段的梅尔倒谱系数,然后对模版与识别文件利用DTW算法进行“比对”,从而实现语音识别。

(4)GUI界面设计的技术方案

在MATLAB主窗口中,选择File菜单中的New菜单项,再选择其中的GUI命令,就会显示图形用户界面的设计模板。在GUI设计模板中选中一个模板,然后单击OK按钮,就会显示GUI设计窗口。在GUI设计窗口创建图形对象,按照要求和所实现的功能对其进行属性编辑。

由此得到系统框图如图1

图一系统框图

2.3技术路线

具体步骤有:

第一步:在老师的指导下初步选题;

第二步:收集,阅读和整理相关资料,熟悉MATLAB编程和相关技术原理;

第三步:输入语音信号并对其进行预滤波、采样和量化、分帧、加窗、预加重、端点检测等;

第四步:设计合适的带通滤波器,完成对语音信号进行特征参数(MFCC)的提取;

第五步:学习DTW原理完成DTW算法的实现,对输入的语音信号进行提取比对建立模板库;

第六步:针对输入语音信号进行测试和性能分析;

第七步:设计完成GUI界面的交互,包括进入孤立词语音系统,交互式对话框,退出系统等;

第八步:撰写、修改毕业设计论文。

3. 研究计划与安排

1~3 周:调研,完成开题报告。

4~6 周:熟悉matlab开发环境。

7~8 周:语音信号的预处理和特征提取。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

4. 参考文献(12篇以上)

[1]周炳良,邓立新,洪民江.一种新的基于dtw的孤立词语音识别算法[j/ol].计算机技术与发展,2018(03):1-6[2017-12-28].

[2]王新胜,巩捷甫,喻明艳.改进的高效动态时间规整算法语音识别系统[j].太赫兹科学与电子信息学报,2015,13(06):942-946.

[3]胡航.《现代语音信号处理》.电子工业出版社.2014.7.

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

发小红书推广免费获取该资料资格。点击链接进入获取推广文案即可: Ai一键组稿 | 降AI率 | 降重复率 | 论文一键排版