1. 研究目的与意义(文献综述)
| 1.1 研究目的及意义 随着计算机和网络技术的迅速发展,现代社会日益迈向高度信息化,信息安全越来越受到人们的普遍关注。作为保障信息安全的手段之一,身份识别在金融、司法、安检、电子商务等诸多领域为确保系统安全起到重要作用。生物识别技术以其特有的稳定性、唯一性和便捷性,逐渐成为身份识别领域中的重要研究方向。 生物识别技术是通过计算机与光学、声学、生物传感器和生物统计学原理等高科技手段密切结合,利用人体固有的生理特性(如指纹、脸象、虹膜等)和行为特征(如笔迹、声音、步态等)来进行个人身份的鉴定。生物识别系统需要对生物特征进行取样,提取其特征并且转化成数字代码,并进一步将这些代码组成特征模板,再利用这些特征模板进行具体的数据分析与处理。 声纹是对语音中所蕴含的、能表征和标识说话人的语音特征,以及基于这些特征所建立的语音模型的总称。有相关科学研究表明,声纹具有特定性和稳定性等特点,尤其在成年之后,可以在相对长的时间里保持相对稳定不变。 声纹识别,又称为说话人识别,属于生物特征识别技术中的一种,是一项根据语音信号中说话人生理和行为特征自动识别说话人身份的技术。语音可以进行远程的采样和识别,因而对个体的身份确认具有方便快捷的优势。与语音识别不同,声纹识别关注语音信号中说话人的个性信息,而不考虑语音所包含的语素信息,它强调说话人之间的个性差异。目前,说话人识别技术主要应用于信息服务、司法鉴定、语音监听、命令发布、门禁控制等。在实际应用中往往把语音识别技术和声纹识别技术结合起来应用,以提高声纹身份认证系统的安全性能。 声纹识别有文本相关的和文本无关的两种。与文本有关的声纹识别系统要求用户按照规定的内容发音,每个人的声纹模型逐个被精确地建立,而识别时也必须按规定的内容发音,因此可以达到较好的识别效果,但系统需要用户配合;而与文本无关的识别系统则不规定说话人的发音内容,模型建立相对困难,但用户使用方便,可应用范围较宽。 由于说话人识别的许多优点和应用前景,已有越来越多的学者和研究机构致力于这项技术的研究和应用。因此,设计和开发说话人识别系统将是一项非常有意义的研究课题。本课题基于文本相关的声纹识别技术,设计并实现一种安全锁控系统,用于保证应用软件或重要文件的安全。 1.2 国内外研究现状 对声纹识别的研究最早始于20世纪30年代,当时研究者们主要通过观察人类对语音的实际反应,研究人耳听觉机理对说话人的辨识。进人20世纪下半叶,随着生物信息和计算机信息技术的发展,通过计算机进行自动的声纹识别成为可能。1945年,Bell实验室的Kesta等人成功实现了语谱图匹配,首次提出了“声纹”的概念;并于1962年首次提出采用此方法进行声纹识别的可行性。Bell实验室的Pruzanshy提出了基于模板匹配和统计方差分析的说话人识别方法,该方法引起了声纹识别研究的高潮。 现代声纹识别技术通常可以分为前端处理和建模测试阶段。 前端处理包括语音信号的预处理和语音信号的特征提取。在声纹识别系统的前端处理阶段中,将语音信号看作短时平稳的序列,语音特征提取的第1步是语音信号的分帧处理,并利用窗函数来减少由截断处理导致的Gibbs效应;同时用预加重来提升高频信息,压缩语音的动态范围,然后对每帧语音信号进行频谱处理,得到各种不同的特征参数。常用的特征提取参数有线性预测倒谱系数(linearpredictive cepstrum coefficient,LPCC)、感知线性预测系数(perceptual linear predictive,PLP)、梅尔倒谱系数(Mel frequencycepstrum coefficient,MFCC)等。表征说话人确认系统性能的两个重要参数是错误拒绝率和错误接受率,在现有的技术水平下,两者无法同时达到最小,需要调整阈值来满足不同应用对“易用性”与“安全性”的需求。 在声纹测试之前,首先对多个声纹信号经过特征提取后进行训练建模,形成一个表征各个人的多复合声纹模型库。而声纹测试的过程是将某段来自某个人的语音经过特征提取后与多复合声纹模型库中的声纹模型进行匹配,进而识别打分,这个阶段可以判断该段语音是来自于集内说话人还是集外说话人。如果是来自集内说话人则进行下一步的辨认或确认操作。对于声纹辨认来说,是一个“一对多”的比较过程,即所提取的特征参数要与多复合声纹模型库的每一个参考模型进行比较,并把与它分数最接近的参考模型所对应的说话人作为某段语音的发出者;而对于声纹确认来说,则是将某段语音提取的特征参数与特定的说话人的参考模型相比较,如果得出的分数大于预先规定的阈值则予以确认,否则予以拒绝。 在声纹识别中,不同模式的匹配方法的区别就在于说话人模型的表示以及模型匹配的方法。常用的识别方法可以分为模板匹配法、概率模型法、人工神经网络法等.其中概率模型法具有灵活性强、理论意义完整等特点,是目前声纹识别中使用的主流匹配方法。在概率模型法中,采用高斯混合模型的说话人识别系统有很高的识别率。在文本无关的说话人识别领域,高斯混合模型已经成为占统治地位的主流方法。近年来,研究者提出一系列以高斯混合模型和通用背景模型(Gaussianmixture models universal background models,GMM-UBM)为基础的声纹识别建模方法,使得声纹识别技术的性能显著提高。 国内对声纹识别技术的研究起步稍晚于国外,但经过国内研究人员的共同努力,声纹识别技术在国内已经得到了较好的发展与应用。目前声纹识别技术已经应用于一些银行与公安等身份采集与确认系统。 |
2. 研究的基本内容与方案
本文以声纹识别为基础,设计并实现一种安全锁控系统,用于维护重要软件或文件的安全,支持云端服务,保证远程解锁,最终以软件形式完成。该系统不仅要求说话者必须为本人,以确保锁控系统由本人打开;同时也要对说话者内容进行判别,以防无意打开系统。系统总体框架如图一,其具体流程为:语音输入、预处理、 特征提取、模型训练、说话人识别、模型评估、判别结果。其中,预处理包含去除非语音信号和静默语音信号、对语音信号分帧;声纹识别拟采用mfcc作为特征参数,并经由预增强、音框化、汉明窗、快速傅立叶变换、三角带通滤波器及离散余弦转换来提取每一帧信号的mfcc参数;在说话人辨别部分,拟采用gmm-ubm模型来进行训练,实现输入数据与说话人模型的匹配。
本系统利用matlab作实现平台,硬件设备仅需一台电脑,从电脑麦克风读取语音数据输入,并在设计完成的matlab声纹识别系统上进行数据的处理与分析,最终与声纹识别的模式匹配结果显示在由matlab编制的gui界面上,该显示结果决定系统能否将相关软件或文件开放。
3. 研究计划与安排
第1-3周:查阅相关文献资料,明确研究内容,了解研究所需理论基础。确定方案,完成开题报告。
第4-5周:熟悉掌握基本理论,完成英文资料的翻译,熟悉开发环境。
第6-9周:编程实现各算法,并进行仿真调试。
4. 参考文献(12篇以上)
| [1] 朱华虹,声纹特征模板保护方法研究[D], 2014 [2] 周玥媛;孔钦,基于GMM-UBM的声纹识别技术的特征参数研究[J], 计算机技术与发展,2020(05) [3] 房爱东;张志伟;崔 琳;谢士春,基于人工智能的语音识别系统及应用研究[J],宿州学院学报,2019, 34(8) [4] 李志平,短语音文本相关说话人识别系统的设计与实现[D], 2009 [5] 王蕴红;谭铁牛,现代身份鉴别新技术——生物特征识别技术[J],中国基础科学,2000(09) [6] 于树本,基于MFCC的说话人语音识别系统的研究[J],黑龙江科技信息,2015(27) [7] 马胜豪,基于语音识别技术的采编系统优化设计[J],广播与电视技术,2018,45(1) [8] 邵明强;徐志京,基于改进MFCC特征的语音识别算法[J],微型机与应用,2017(21) [9] 胡岩松,一种基于高斯(GMM)模型的声纹识别算法研究[J],计算机产品与流通,2018(11) [10] 韩纪庆,语音信号处理,北京:清华大学出版社,2013 [11] 赵力,语音信号处理:principles and practice.第2版,北京:机械工业出版社,2016
[12] S.Lokesh;M.Ramya Devi,Speechrecognition system using enhanced mel frequency cepstral coefficient withwindowing and framing method,ClusterComputing ,2019 [13]M.Jian;L.Yongmei,An embedded voiceprintrecognition system based on GMM,ICCSE,2015 [14]Yuan Xue;Luping Wang;Linxuan Li;Zhiqi Liu;Jialin Liu,Matlab-Based IntelligentVoiceprint Recognition System,IMCCC,2017 [15]Jing Zhang,Realization and improvementalgorithm of GMM - UBM model in voiceprint recognition,第30届中国控制与决策会议,2018 [16] Comparison of LPCC and MFCC features and GMM and GMM-UBM modelingfor Limited Data Speaker Verification,IEEE International Conference on Computational Intelligence andComputing Research,2014
|
