1. 研究目的与意义
在高度信息化的现代社会,人们的身份鉴别已经渗透到日常生活的每一个方面,由于交通、通讯和网络技术的飞速发展,人类的活动范围越来越大,身份鉴别的难度和重要性也越来越突出。除了我们熟知的,目前被广泛应用的指纹、人脸、虹膜等生物基本特征之外,语音也属于生物特征。由于人生而不同,每个人的发音器官都不尽相同,所以我们的声音也是每个都是与众不同,任何两个人的声纹图谱都有差异,都带着自己个人的特点,也就是我们所说的语音特征。
语音特征识别,是根据说话人声音的特有的特征来识别说话人的真实身份,包括说话人辨认和说话人确认,主要是把声信号转换成电信号进行识别。声纹即拥有人的生理特征,也拥有人的行为特征。语音作为身份识别的生物特征有几个基本特征:语音具有普遍性,每个人只要说话就会产生相应的声纹信息;唯一性,因为每个人说话时,发声器官和发声方式的不同,所以产生的声纹信息也都是不同,可以说声纹信息与说话人是一一对应的关系;可预测性,在日常生活中我们就可以通过听到说话人的声音来判断说话人的身份。与其他的生物特征相比,声纹主要有以下几个优点:
(1)方便性,声音录入的设备相对于其他应用的生物识别技术比较廉价,成本相对较低。
2. 研究内容和预期目标
本课题主要研究内容:
本课题是基于离线小样本语音特征库的人员身份识别技术的实现,语音特征识别主要有两个关键词,一是特征提取,二是模式匹配。
在获取到一条语音信号的时候,首先需要对语音信号进行预处理,研究预处理方法,提高语音信号的信噪比。之后对处理过的语音信号进行特征提取,特征提取的主要任务是提取并选择对说话人的声纹具有可分性强、稳定性高等特性的声学特征。对提取到的声学特征使用识别算法与语音特征库中的语音进行语音特征模式匹配。
3. 研究的方法与步骤
本课题研究步骤:
(1)语音信号采集,使用现有的设备,例如麦克风等采集语音,随后用现有的工具将采集的语音信号转直接换成波形,语音的波形图方便对语音信号进行处理和特征提取。
(2)语音信号预处理,对采集后的语音波形图进行预处理。预加重处理,语音信号能看量主要分布在低频段,而高频段信号能量小,预加重可以提高高频段的传输效率;对处理过后的语音信号进行分帧,将信号分成一小段一小段,信号在较短时间内语音信号会保持平稳;对分帧后的信号进行加权处理,加权之后的语音信号会呈现出周期函数的部分特征;对语音进行端点检测,可以根据语音信号的无声段、清音段和浊音段三个特征,去除无声段之后进行端点检测。
4. 参考文献
[1] 邬龙,黎塔,王丽,颜永红.基于知识蒸馏和生成对抗网络的远场语音识别[j].软件学报,2019.11
[2] 陈哲怀,郑文露,游永彬,钱彦旻,俞凯.标签同步解码算法及其在语音识别中的应用[j]. 计算机学报, 2019.07
[3] 王康,董元菲.基于角度间隔嵌入特征的端到端声纹识别模型[j]. 计算机应用,2019.08
5. 计划与进度安排
(1)1月11日至2月15日分析课题,查找资料。
(2)2月16日至2月28日完成需求分析。
(3)3月01日至3月16日完成开题报告。
