应用VQ-HMM的汉语数码语音识别外文翻译资料

 2022-12-11 20:28:59

英语原文共 5 页,剩余内容已隐藏,支付完成后下载完整资料


应用VQ-HMM的汉语数码语音识别

Zhao Li Liu Yilong Zou Cairong Wu Zhenyang

(Department of Radio Engineering ,Southeast University ,Nanjing 210096)

摘要:提出了一种新的语音识别方法,该方法综合了VQ和离散HMM算法,在每个状态通过用矢量量化误差值取代传统的HMM输出概率值来建立VQ-HMM。介绍了VQ-HMM,并通过非特定人汉语数码语音识别实验对其识别性能与传统的HMM作了相应的比较。实验结果表明该方法识别效果优于传统的HMM。

关键词:HMM;VQ;汉语数码语音识别

几乎所有成果的语音识别算法已经被记录了,是随机或信息理论方法。其中最具有代表性的是HMM和VQ。最新的理论是由Shore和Burton提出的,并且被用于数字语音识别。它的主要优势在于静态时间或者动态时间的扭曲是不作要求的。这个方法同样被用于身份识别和语言识别。但是,它对于语音识别不是很有意义因为语音识别要求具有时间依赖性。因此,Burton等人,改进了这种方法,例如把语音分成不同的部分,通过VQ算法相应的码本计算每个部分,这种方法被认为是VQ算法和线性算法的整合。但是,时间扭曲方法是没有意义的,在这篇文章中,我们提出了一个新的语音识别算法通过整合VQ和HMM算法,它使用一种VQ失真算法代替了原来通过离散HMM算法计算的离散输出部分。这种方法被认为是在Burton提出的语音识别算法为基础上的精良版本,同时它也被认为是HMM的一种特殊的混合分布密度方法。我们通过使用汉语语音识别验证了这种方法。

1.VQ-HMM

给定输入向量序列,识别器可以估计由VQ-HMM(基于VQ失真的HMM)产生的序列失真值,将通过选择最小累积失真值的模型来对序列进行分类。

模型参数包括状态转换参数和每个状态的码本。这些模型需要在每个认可的类中准备好,而不是在一个状态的概率标准的离散HMM,使用对应于状态的码本的VQ失真度量逐帧计算,并且失真值在所有输入帧上累积。累积值的最小值由Viterbi算法计算,公式如下:

y表示输入向量序列,x表示状态序列(S表示状态的数量总和),C表示状态的相应码本,d(x)表示成本函数对状态转换的影响,并且d(y,C)表示y和C之间的距离,并满足一下公式:

Viterbi算法是下面这种算法:

g(j,t)是y和x之间最小的累积,

在标准的离散HMM算法中,Viterbi算法为:

模型参数的估计通过迭代过程执行,如k均值用于标准HMM的聚类过程如下:

1:初始化;

2:通过使用维特比将每个训练语音样本分割成多个状态评分程序和回溯;

3:收集每个状态的对应帧并计算新码本;

4:状态转移概率由迭代次数的比率计算自循环和1;

5:重复2-4直到参数收敛;

在我们的实验中,我们使用一种从左到右的HMM离散法来制作原始模型。通过回溯状态来执行将输入语音分割成S段序列。我们可以将初始分割结果视为次优。因此我们不用重复上述程序。在第二步中,失真通过最近的NN法则,但是我们可以使用另外的失真方法,例如k最近的NN法则就是:

di代表y和C的代码向量之间的最小距离。

  1. 实验结果

2.1数据语音库和语音分析

我们使用两个任务来测试识别实验的算法。第一个任务是孤立的中文口语数学识别。训练数据由200个数字组成,每个数字由50个人发出(一共2000个数据)。测试数据由100个数字组成,每个数字由25个人发出(一共1000个数据)。检测到开始/结束点时自动通过使用功率水平的阈值。

第二个任务是连接中文口语数字识别。数字字符串为4,长度有35的变化,数据由20个男性每人说2个话语组成,成年人不包括在上述75个发言者中(一共1400个数据)。 输入语音通过12kHz采样,并且通过传递函数1-0.98Z-1.通过14阶LPC分析计算14个电声系数,每1毫秒时的风速为21.33ms(256点)。这14个系数被转换为10的melcepstrum系数。

2.2识别结果

(a)隔离中文数字识别

我们采用从左到右的HMM是在没有状态转换的情况下。用于比较,我们在本文中使用了离散HMM,连续HMM和VQ-HMM进行了实验。在离散HMM中,通过使用所有训练数据创建了256个码矢量的码本。在连续HMM中,在每个状态下使用混合高斯分布。图1显示了对于每个HMM最好的实验结果。从中看出,VQ-HMM在其中表现最好,优点最明显。

(b)连续中文数字识别

对于连接的数字识别我们使用一次通过DTW(维特比评分)方法计算距离。在语法驱动的一次通过DTW方法中,我们给这个数据自动状态为5(不要随意插入或删除)。换句话说,我们给定字符串的长度。此外,我们使用(a)制作的代码簿进行计算VQ失真。实验数据在图二中,作为比较,我们使用了三个状态。在连续的HMM中,单独的高斯分布在每个状态下都被使用,实验二告诉了我们每个状态的HMM最好的效果,作为结论,VQ-HMM优于连续HMM。一般来说,VQ-HMM的参数越少,它在各种语言环境下的性能越强,VQ-HMM被认为是常规混合连续密度HMM的特殊情况。根据实验结果,VQ-HMM是稳健的并且优于常规HMM。

  1. 结论

在这篇论文中,我们提出并评估了VQ-HMM。虽然这个新方法被认为是固定连续密度HMM的特殊情况,这个方法是稳健的并且不需要很多计算。我们将此模型应用于非特定人的汉语数码识别,对此我们获得了百分之百的精确度。VQ-HMM具有的优势就是我们可以采用任何光谱距离测量,在不久的将来,我们应该在更复杂的任务中来评估这种模型。

参考文献

  1. J.E.Shore,and D.K.Burton,Distance utterance speech recognition without time alignment ,IEEE Trans.,vol.IT-29,no.4,pp.471-491,1983
  2. D,K,Burton,Text-independent speaker verification using vector quantization codebooks,IEEE Trans.,vol.ASSP-35,no.2,pp.133-143,1987
  3. F.K,Soong,and A.E.Rosenberg ,On the use of instantaneous and transitional spectral information in speaker recognition ,IEEE Trans.,vol.ASSP-36,no.6,pp.871-879,1988
  4. M.Sugiyama,Automatic language identification using acoustic features,Proc.ICASSP,pp.813-816,1991
  5. S.Nakagawa,Y.Ueda,and T.Seino,Speaker-independent text-independent language identification by HMM,Proc.ICSLP.,pp.1011-1014,1992
  6. D.K.Burton ,J.E.Shore,and J.T.Buck,Isolated-word speech recognition using multisection vector quantization codebooks,IEEE Trans.,vol.ASSP-33,no.4,pp.837-849,1985

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[27357],资料为PDF文档或Word文档,PDF文档可免费转换为Word

您需要先支付 30元 才能查看全部内容!立即支付

发小红书推广免费获取该资料资格。点击链接进入获取推广文案即可: Ai一键组稿 | 降AI率 | 降重复率 | 论文一键排版