孤立词识别的小波变换和基于LPC的特征提取法外文翻译资料

 2022-10-14 18:54:21

英语原文共 7 页,剩余内容已隐藏,支付完成后下载完整资料


孤立词识别的小波变换和基于LPC的特征提取法

摘要:在这篇文章中,这种利用小波分解和降低线性预测编码(LPC)系数的新的特征提取方法已经适用于语音识别当中。这些系数来自离散小波变换的语音帧。这些来自语音帧子带分解(简称WLPC)的LPC系数要比直接建模框架有更好的代表性。该WLPC系数已进一步规范在倒谱域获得新的特征集,记为小波子带倒谱均值归一化的特征。所提出的方法具有有效性(更好的识别率),高效性(减少特征向量维数)和噪声鲁棒特征。在隐马尔可夫模型的连续密度白噪声环境中,基于TI-46孤立词的数据库和自己创建的马拉地语数字数据库对这些技术的性能进行了评估。实验结果也表明,该方法相比于传统的方法比如线性预测倒谱系数,Mel频率倒谱系数,谱减法和倒谱均一化在加性高斯白噪声中更具有优势。

关键词:特征提取,线性预测编码,离散小波变换,倒谱均值归一化,隐马尔科夫模型

  1. 前言

语音识别系统主要有两个部分,即特征提取和分类。特征提取方法在语音识别任务中起着至关重要的作用。声学测量的主要方法主要有2种,第一种是一个时域或参数的方法,如线性预测[1],这是发展密切配合的共振结构的人声道产生相应的声音。线性预测系数(LPC)的技术是不适合代表讲话的,因为它是假定信号平稳在一个给定的框架,因此不是局部事件的准确分析,也不能够捕获正确的清音和鼻化音[2]。第二种方法是基于人类听觉感知系统,称为Mel频率倒谱系数的非参数的频域方法(MFCC)[3]。MFCC的广泛使用是由于在ASR清晰的匹配条件下其具有较低的计算复杂度和更好的性能。在噪声和降解存在的情况下,MFCC性能降低的速率与信号的信噪比(SNR)成正比。各种形式的噪声条件下,LPC及其不同形式的反射系数,线性预测倒谱系数(LPCC)以及MFCC的性能差,导致许多研究人员研究替代鲁棒特征提取算法。

在文献中,已经提出了各种技术以改善在存在噪声的ASR系统的性能。语音增强技术,如谱减法(SS)[5]或倒谱差功率谱[6]可以用噪声的统计信息或在特征提取前从嘈杂的语音滤除噪音来减少噪声的影响。像感知线性预测[7]和相对光谱[8]这类技术将一些人类的听觉机制的特征具体化并且可以对噪声进行鲁棒性处理。像倒谱均值相减和并行模型组合这些特征增强技术通过对在倒谱域特征不匹配的影响下进行补偿,来提高ASR的性能。在另一种方法[11-16]中,小波变换和小波包树已被用于小波分解后的子带的能量已代替梅尔过滤子带能量的语音特征提取。因为它的能量压缩性能更好[17],基于小波变换的特征要比LPC和MFCC拥有更好的识别精度。梅尔滤波器如容许小波包结构[14]在清音音素识别方面要优于MFCC。小波子带的特点使得在存在加性白噪声的情况下使用归一化的子带能量可以表现出良好的性能。然而,在这些基于小波的方法中由于小波子带能量的使用造成了时间信息的丢失。我们实际使用的小波系数[18],保留了时间信息,这些特征由于LPC和WT的组合优势要比LPCC和MFCC执行的更好。LPC可以更好的区分听起来具有不同的元音的词[19]并且WT可以模拟语音信号清音部分的细节。然而,这些特征的性能对于噪声语音识别是不好的。

我们对[18]中的特征进行修改以得到有效的、高效的噪声鲁棒性特征帧的频率子带。每一帧语音信号使用离散小波变换(DWT)分解为(均匀/矢)不同频率的子带,每个子带使用线性预测编码(LPC)来进一步建模。小波变换对于清音部分的细节具有更好的建模能力,因此,子带分解通过小波变换进行。小波变换由于其分辨能力和恒定的Q值属性在数字信号处理领域更受欢迎,这是一个许多信号处理的应用需求,特别是在语音信号处理方面(如人类的听觉系统的属性是常数Q)[20]。小波分解的结果在一个对数的带宽内,这与人类的耳朵对于频率(对数的方式)的响应是很相似的。语音子带LPC系数是从小波分解后提供WLPC特征[18]得到的。进一步的,这些特征是倒谱域中使用著名得而倒谱均一化技术来获取噪声鲁棒性特征。这些新的特征在加性白噪声环境中表示为小波子带倒谱均值归一化特征(WWSCMN)可以更好的执行。本文提出的特征的性能在TI-46和Marathi数字数据库中使用连续密度隐马尔可夫模型测试(CDHMM)作为分类器来测试。

文章的其余部分安排如下。在文章的第二部分我们对DWT理论进行一个简单的描述。在第三部分中,介绍了WLPC的特征提取及其规范化;在4节中给出了各种实验和识别结果;第5节给出了基于实验的结论性总结。

2.离散小波变换

语音是一个非平稳信号。傅里叶变换(FT)对于非平稳信号的分析是不适用的,因为它只提供了信号的频率信息,但是没有提供当前频率的时间信息。加窗短时傅立叶(STFT)提供信号的频率内容的时间信息。STFT的一个缺点是,由于窗长固定,其时间分辨率也是固定的。小波变换具有灵活的时间-频率窗口,是用于分析的非平稳信号合适的工具,比如既有短的高频率的脉冲又有长的准静止分量的语音信号。

小波变换将信号分解为平移和扩张的母小波。母小波是一种能量有限快速衰减时间函数。不同版本的单小波是彼此正交的。连续小波变换(CWT)是由方程(1)得出的,这个方程中的函数psi;(t)、a、b分别为(母)小波,换算系数和平移参数。

(a,b) =

当对信号进行分析时,由于连续小波信号变换函数有2个参数,所以其具有高的冗余度。相反,在每个规模上使用不同数量的小规模变换分析信号,即用和作为离散尺度和平移参数来得到离散小波变换。离散小波变换理论[20,21]需要两组相关函数,这两组函数分别为尺度函数和小波函数:

函数被称作尺度函数,h[n]是低通滤波器的脉冲响应,g[n]是高通滤波器的脉冲响应。尺度函数和小波函数可以通过一组滤波器有效的实现,即h[n]和g[n]。这些滤波器被称为正交镜像滤波器,并且满足g[n] = h[1-n][17]。输入信号是输入的语音信号通过低通滤波得到的近似分量和通过高通滤波器得到的详细分量。在每个阶段的近似信号使用相同的低通和高通滤波器进一步分解,为下一阶段得到的近似和详细的分量。这种分解称为二进制分解,而随着每个阶段的近似信号的细节信号的分解称为均匀分解。二进分解将输入信号的带宽划分为对数的带宽,而均匀分解将其划分为均匀的带宽。在语音信号中,目前高频率在声音中是非常简要的,而较低的频率在长周期上是较后的[21]。DWT可以很好的处理这些频率。离散小波变换的参数包含不同频率尺度的信息。这有助于获得相应的频带的语音信息,为了使语音信号参数化,该信号被分解为四个均匀的或以二元方式的频率带。

3.WLPC的特征提取

语音识别方法中,基于LPC系数和倒谱系数(LPCC)系列的性能是相对简单的。LPC是一个语音帧的自回归模型的系数[2]。声道的传递函数的所有极点表示如下:

是预测系数,G是增益。这些技术可以通过最小化均方误差语音帧的实际样品和样品之间的自相关估计方法推导。利用方程直接得到倒谱系数:

其中i=1,2,hellip;,p。这样得到的LPC和LPCC无法捕捉语音信号中的高频峰也无法准确分析的小波变换局部事件。然而,相对于那些共同的元音,LPC可以更好的区分听起来有不同的元音之间的词。WT比LPC更能模拟语音清音部分的细节 [19]。同样的子带信号(小波系数),在时域信号中通过小波分解和LPC估计更容易得到的保留时间的信息。所以,在综合LPC和WT的优点对小波进行分解后,我们可以将LPC技术应用于每个子带信号上。因此本文提出将LPC与WT相结合。

LPCC特征根据基于所建议的特征提取技术的小波变换获得的子带信号估算出来。数据一是本文提出的特征提取系统框图。三级预处理后的小波分解和窗口的语音帧使用Daubechies小波滤波器完成。实际的小波系数保留时间信息;因此,LPC特征由时域DWT系数的估算。P阶的LPC特征从每个子带的小波分解的语音信号中提取。这种技术的原理如图1a所示。从每个子带得到的LPC系数串联形成最终的特征向量,记为小波分解LPC(dwlpc)。因此,表格i中的特征向量fi可以表示为fi = [ 。

图1 WLPC特征提取方法:(a)dwlpc (b)uwlpc

其中,是使用预测系数的一个行向量,这个预测系数通过第三阶的近似分量A3获得。是使用预测系数的一个行向量,这个预测系数通过第j阶的细节分量Dj(j=1,2,3)获得。T表示一个向量的转置。

图1b是从带均匀带宽特征提取的均匀小波原理分解LPC(uwlpc)。通过二级小波包分解得到的子带[21]。然后,通过LPC系数估计均匀分解的子带信号级联,该uwlpc特征向量形成相似的dwlpc。

3.1 wscmn特征

CMN[9]是实现特征归一化最简单的技术。它在更先进的归一化算法上有很多优点。LPCC倒谱衍生方程(5)从WLPC特征从每帧的子带信号估算得到。因此,一个序列的倒谱矢量{X1,X1,hellip;,XT}是同一个语音样本中得到的。此外这些倒谱矢量归一化都采用CMN的方法。其基本形式中,CMN由通过方差从每个向量减去平均特征向量得到归一化向量

其中, ,

这个公式给出了wscmn的特征向量。图2显示的是wscmn特征提取的步骤,u-wscmn是均匀分解wscmn特征向量,d-wscmn是二进分解wscmn特征向量。

归一化处理后的倒谱序列的均值为零,它有一个方差。这也被称为倒谱均值和方差归一化。CMN使语音信号的特征鲁棒线性滤波,这可能是由麦克风的不同传递函数,从用户到麦克风的距离变化,房间声学,或传输通道[9]造成的。

图2 wscmn特征提取方法

4.实验结果

此部分对使用TI-46和自己所创建的Marathi数据库的平稳白噪声孤立词识别技术的性能进行了评估。

4.1数据库

语音识别实验是在安静和噪声环境下进行的,使用TI-46和自己所创建的Marathi数据库。TI的特定人孤立词的语音库[22]有两个数据集,即TI-20和TI-ALPHA。TI-20词汇包括十个英文数字“零”到“九”和十个控制字“是的,不,擦掉,抹掉,重复,去,进入,帮助,停止和启动”。TI-ALPHA子集包括“a”到“z”的英文字母。在这两个数据集中,数据是从八名男性和八名女性实验者收集的。每个实验者的每个词有26句,其中10个作为训练标记和剩余的16被用作测试标记。所以,TI-20子集共有3200个训练样本和5120个测试样本,而TI-ALPHA有4160个训练样本和6656个测试样本。所有的数据样本进行数字化的采样频率是12.5千赫。

对Marathi数据库,数据来源于56名男性和44名女性实验者,在一个安静的房间用10 kHz的离散采样频率采样。每隔一周,在2个不同的时期中每个实验者的每个词都有20个发音。在每一个环节,对每个人的每个词的十个发音进行记录。试验中,样品在第一次会话记录用于第二次会话的训练,样品用于测试。因此,该数据库共有10000个训练样本和10000个测试样本。表1是英文数字和他们相当的Marathi数字发音。

俊弥

EK

青少年

字符

帕奇

萨哈

协会

NAU

表1 英文和相当的Marathi数字发音

4.2 实验计划

输入语音样本由传递函数为H(z)= 1-0.97z-1的一阶滤波器预加重。预加重的语音数据分为每个相邻帧有50%重叠部分的25.6毫秒的时间段。确保使用汉明窗对每一帧进行平滑的频率转换。

每一个数据集(TI-20,TI-ALPHA,Marathi数字)的噪声测试样本被人为添加平稳高斯白噪声,在信噪比范围广泛的条件下(0,5,10,15,20,和30 dB)加入到测试样本的每一个数据集。进行纯净和噪声的试验样品试验。在训练和测试中,使用对角协方差左右CDHMM [2]与4-mixtures和5-states(这种组合产生最佳性能)作为分类器。

4.3基线实验

基线实验对每个数据库均采用LPCC和MFCC特征进行。在LPCC特征提取前,预测系数使用第十三阶LPC提取每一帧语音。从得到的预测系数、倒谱系数及其时间导数(一阶和二阶导数)进行提取和级联,形成最终的LPCC特征向量(特征尺寸39)。

在MFCC特征提取过程中,语音信号窗口帧的幅度谱由一个20

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[151225],资料为PDF文档或Word文档,PDF文档可免费转换为Word

您需要先支付 30元 才能查看全部内容!立即支付

发小红书推广免费获取该资料资格。点击链接进入获取推广文案即可: Ai一键组稿 | 降AI率 | 降重复率 | 论文一键排版