面向关键词识别的低功耗语音特征提取模块设计与实现文献综述

 2023-08-04 16:37:42
  1. 文献综述(或调研报告):

1 介绍

人的听觉系统是一个特殊的非线性系统,它响应不同频率信号的灵敏度不同,而在Mel频域内,人对音调的感知度为线性关系。如果在语音识别系统中能模拟人类听觉感知处理特点,就有可能提高语音的识别率。在梅尔频率倒谱系数(MFCC)之前,线性预测系数(LPCS)和线性预测倒谱系数(LPCCs)是自动语音识别的主流方法。MFCC由Davis和Mermelstein在1980年代提出,其考虑到了人类的听觉特征,先将线性频谱映射到基于听觉感知的Mel非线性频谱中,然后转换到倒谱上。随着相关研究的进一步开展,MFCC已经被广泛应用于多个领域,其与不同匹配、识别算法的组合在如语言识别、音色识别等多个方面有出色表现[1]-[3]

2 经典MFCC算法

如图1所示,经典MFCC提取方法[4]首先使用预加重滤波器对语音信号进行预加重,以使信号频谱平坦化,此后对语音信号进行分帧。由于帧的起点和终点会引入明显的高频噪声,为减少这种边缘效果,对帧进行加窗操作。由于加窗操作会大幅削弱一帧首尾部分的信号,因此在分帧时采用重叠的方法,即使前一帧后半部与后一帧前半部存在部分重叠以强化该部分的信号。加窗后的信号通过FFT变换转换为频域信号并通过Mel滤波器组得到Mel频谱。对该频谱进行离散余弦变换DCT即可得到MFCC,还可将能量对数化后作为系数之一。

图1 经典MFCC提取流程

3 改进的MFCC算法

传统MFCC方法仅使用了时域语音帧的傅立叶变换的幂,而忽略了其相位分量。大量研究表明,少量的相位误差或不确定性不会影响识别率,但是大量的相位不确定性却会对人类语音识别率产生重大影响。已有研究[5]-[6]证明了对于特定声源,剩余相位与传统MFCC中信息的互补性,其中剩余相位可通过线性预测分析从语音信号中导出。近些年来开展了许多基于群延迟的相位信息的语音识别研究。“群延迟”即信号傅立叶变换的相位的负导数。在NIST 2003数据集上,与常规MFCC功能(~18%EER)相比,采用改进的群延迟特征的性能更好(~15%EER)[7]。 此外,有研究者提出了另一种特征提取方法,使用最小二乘正则化来降低从语音频谱中得出的群延时特征的可变性。

Nakagawa Seiichi等将相位信息与MFCC相结合进行了语音识别研究并出了一种相位信息归一化方法以解决相位随输入语音中的帧位置变化而变化的问题[8]。然而该方法在比较两个相位值时存在问题。例如,给定两个相位pi;-theta;1与theta;2=-pi; theta;1,其相位差为2pi;-2theta;1。若令theta;1为0,则相应的相位差为2pi;,然而此时的两个相位实际上相同。为解决该问题,将相位映射为单位圆上的坐标,即theta;→(costheta;, sintheta;) 。文中采用基于MFCC的高斯混合模型(GMM)与基于相位信息的GMM相结合的方法,将二者各自得到的可能值进行线性耦合,以产生新的可能值,此后使用基于同类群组的归一化方法进行似然归一化,根据似然比确定未标记的语音样本是否属于特定参考说话者。与原始相位信息(theta;)相比,修改后的相位信息(costheta;,sintheta;)显着提高了语音识别性能。对于正常,快速,慢速的语速模式,相对于传统MFCC,该方法的错误减少率分别为 53.8%,60.6%和45.2%。,此外,相位信息和MFCC的组合对于嘈杂环境下的语音识别也非常有效。使用纯粹语音训练的识别系统在20dB固定/非固定噪声的情况下,MFCC识别率为76.3%,相位信息的识别率为64.7%,而MFCC和相位信息的组合为91.6%。

Afzal Hossan等则提出了一种基于分布式离散余弦变换(DCT-II)的MFCC特征提取方法[9],与常规MFCC相比,对于相同数量的滤波器使用DCT-II时所需特征向量的数量减1,从而减少了运算时间,而在识别精度方面则有所提高,对于同一数据集,使用传统MFCC得到的识别精度为90.36% ,而使用DCT-II的MFCC特征96.72%。与此同时,使用传统方法提取的MFCC特征向量不能准确捕获语音信号的过渡特性[10],由MFCC一阶和二阶时间导数可分别获得DMFCC和DDMFCC,从而弥补这一缺陷。

Abhishek Dixit等提出了一种使用1-D中值滤波器的MFCC与线性预测编码(LPC)相结合的识别方法[11]。该方法流程如图2所示,使用1-D中值滤波器消除模拟信号噪声,在改进的MFCC算法中以1-D中值滤波器形式增添一个附加相位并将此修改后的MFCC算法应用于语音特征提取。类似的,在LPC算法中增加1-D中值滤波器形式的附加相位并将之应用于特征提取。之后将从两种改进算法中提取到的语音特征进行组合,并用作反向传播神经网络分类器的输入,以进行语音识别。相对于单独的MFCC算法或LPC算法,该算法识别性能有所提升。此外,使用中值滤波器与谱减法,还可以在改善噪声对识别结果的影响[12]

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

发小红书推广免费获取该资料资格。点击链接进入获取推广文案即可: Ai一键组稿 | 降AI率 | 降重复率 | 论文一键排版