双语哈俄系统用于自动语音识别和合成外文翻译资料

 2022-11-09 04:11

英语原文共 9 页,剩余内容已隐藏,支付完成后下载完整资料


双语哈俄系统用于自动语音识别和合成

Olga Khomitsevich1,2, Valentin Mendelev1,2, Natalia Tomashenko1,2(B), Sergey Rybin2, Ivan Medennikov2,3, and Saule Kudubayeva4

1SpeechTechnologyCenter,SaintPetersburg,Russia {khomitsevich,mendelev,tomashenko-n,medennikov}@speechpro.com

2 ITMO University, Saint Petersburg, Russia

rybin@speechpro.com

3 STC-innovations Ltd., Saint Petersburg, Russia

4 Kostanay State University named after A. Baytursynov, Kostanay, Kazakhstan

saule.kudubayeva@gmail.com

摘要

本文提出了一种用于哈萨克语和俄语语言识别和合成的系统。 它是专为哈萨克斯坦的演讲者而设计的; 由于哈萨克斯坦人的双语制度普遍存在,所以认为设计双语哈萨克斯坦 - 俄罗斯制度是至关重要的。 开发系统涉及建立一个处理哈萨克文和俄文文本的文本处理和转录系统,并用于语音合成和识别应用。 我们使用同一双语声音艺术家的唱片创造了一个哈萨克TTS声音和另外一个俄语声音。 收集了哈萨克语言数据库,用于训练语音识别系统的深层神经网络声学模型。 所产生的模型证明了在交互式语音响应和关键字发现场景中的实际应用的有效性能。

关键词:语音识别·语音合成·ASR·TTS·哈萨克语

1介绍


本文介绍了为哈萨克斯坦演讲者设计的自动语音识别(ASR)和文本到语音(TTS)系统。 由于大多数哈萨克斯坦人都是双语的,而哈萨克斯坦的文字和言论往往含有俄语的散文,我们决定建立一个双语的哈萨克语 - 俄语系统。 我们设计的TTS系统包括能够处理哈萨克斯坦和俄罗斯文本的文本处理和转录模块,特别是与哈萨克斯坦的俄罗斯借款。 这些模块也由ASR系统使用。 我们还创造了两个TTS声音,使用相同的双语女声音艺术家:哈萨克语和俄语。
收集了包含阅读和自发语音的哈萨克语言数据库,并用于训练双语ASR系统,用于交互式语音应答(IVR)和关键字检测(KWS)情景。 ASR系统采用TTS转录模块生成语音转录。 基于上下文的深层神经网络隐蔽马尔科夫模型(DNN-HMM)实现声学模型训练。
本文的组织结构如下。 第二节描述了哈萨克语言为ASR和TTS任务提出的挑战。 第3节描述了我们的TTS系统。 我们的ASR系统的概述和识别实验的结果在递4、第5节结束文件中给出。

Springer International Publishing Switzerland 2015

A. Ronzhin et al. (Eds.): SPECOM 2015, LNAI 9319, pp. 25–33, 2015.

DOI: 10.1007/978-3-319-23132-7-3

2哈萨克语言

哈萨克斯坦语为自然语言处理(NLP)任务提出了几个挑战,并为这种语言开发语音技术。一个是哈萨克语,几个语言资源,如词典,语料库或NLP软件。因此,它可以被认为是一种资源不足的语言,并且应用程序(如语音识别和综合)必须从零开始构建(例如,我们只能找到文献中描述的非常基本的哈萨克斯坦ASR系统[1,2])。
另一个更重要的问题是双语主义和与俄语的相互影响的问题。哈萨克斯坦是一种突厥语言,是前苏维埃共和国的国家语言。在苏联解体之后,国家在1991年取得了独立性,但俄罗斯仍然是哈萨克斯坦国家的第二个语言,其作用仍然非常突出。俄罗斯继续在教育,特别是高等教育,媒体,国家机构等方面广泛使用,大多数哈萨克斯坦人都是双语的[3,4]。
来自NLP观点的这种社会语言状况的后果是双重的。首先,哈萨克语言中的代码转换和语言干扰非常普遍。哈萨克斯坦文本或会话演讲典型的是将俄语中的短语和从一种语言转换到另一种语言,有时是中期句子。这是语音识别的一个重要挑战:哈萨克斯坦设计在现实生活中工作的有效的ASR系统实际上需要成为一个双语制度,承认哈萨克语和俄语演讲,无需在任何一种情况下进行特殊调整。
其次,哈萨克斯坦从俄罗斯积累了大量借款。这对哈萨克斯坦TTS应用尤其重要。哈萨克斯坦语遵循元音和谐的规律,而绝大多数的单词形式的压力固定在单词的最终音节上。来自哈萨克斯坦语的很多俄罗斯语从俄罗斯语中排除。对我们来说,最重要的是俄语没有固定的词语压力,实际上压力可以落在这个词的任何音节上。不受影响的元音经历了定性和定量的减少:特别是,在不受压力的位置,音素/ o /和/ e /不分别被/ a /和/ i /替代,尽管它们仍然被写为/ o /和/ e /。相比之下,哈萨克元音并没有经历这种减少。因此俄罗斯的借款在哈萨克斯坦文本需要相应地检测和转录。 俄语单词还包含原语哈萨克语中不存在的音素,导致转录所需音素数量的增加。 下一节将介绍我们处理这些问题的方式。

3哈萨克语词典综合与转录

建立哈萨克斯坦TTS系统涉及到许多刻板步骤。 文本需要归一化,这意味着检测单词和句子,处理诸如数字,缩写,拉丁文脚本等非标准单词。然后转换生成的规范化文本,形成合成语音。 这里描述的哈萨克斯坦TTS系统是基于单元选择(US)算法和HMM语调建模的混合TTS系统[5,6],并且是Speech Technology Center Ltd.开发的VitalVoice TTS的一部分。构建文本处理模块 对于TTS,即文本归一化和转录,也用于ASR应用程序。 我们为这些模块开发的工具如下所述。

3.1词典和POS标签

哈萨克族属于突厥语,并显示其典型特征[7,8]。它是具有高规则形态学的凝集性语言,其中将ffi xes的序列以严格连续的方式添加到茎中以便构建许多形式。为了帮助解决哈萨克斯坦文本处理的任务,我们认为构建一个词典包括一个词干词和一个词汇的库存是必不可少的。这些工具以多种方式使用。首先,将ffi xes以书面形式添加到非标准单词中(例如,代表“第17”),因此我们需要检测它们以处理这些单词。第二,在大多数哈萨克斯坦语中,压力落在最后的音节上,然而一些ffi xes,如负动词ffi x及其组合,或形容词ffi x不承担压力。因此,为了预测压力放置,我们需要检测ffi xes并且还解决部分语音(POS)同义词。最后,俄罗斯常见的借款需要包括在字典中;由于它们与哈萨克斯坦经常使用,所以检测一个ffi x是正确的转录也很重要。
我们的哈萨克斯坦字典按以下方式组织。词条词条中包含一个单词的词干以及其POS标签或标签,如果适用,则包含“俄语单词”标签,以及俄语单词的强调音节数字。对于ffi x检测,我们应该注意到,在哈萨克语中,每个语法功能都由自己的ffi x表示。一个ffi x序列可以长得很长,实际上不可能编译一整套可能的组合。然而,为了简化计算,我们没有选择完整的形态分析,而是列出了一个常见的ffi x组合,并将它们作为一个单独的ffi x进行处理。因此,ffi x词典包含一个约6700个ffi xes及其POS标签的列表。在文本处理期间,每个单词形式被分割成词干和一个ffi x(如果有的话),并且分配一个基于词干和一个ffi x标签匹配的POS标签。添加了几种基于上下文的同义词解析规则来处理剩余的POS消歧。

3.2建立录音规则和综合演讲


哈萨克斯坦的写作是基于西里尔字母,附加了几个特定的​​字母[8]。这是一个比较直接的音位正字法,所以我们决定选择哈尔滨语的基于规则的录音。我们制定了一套信到音素重写规则,考虑到同化法。重要的是要注意,这些规则只适用于原来的哈萨克语。对于俄罗斯借款,必须添加一个单独的字母到音素转录规则集,从而在一个算法中产生了几乎两个规则集。在我们的TTS / ASR系统中使用的一组音素包括59个音素,包括原始的哈萨克语音素和只发生在俄罗斯借款的那些。
因此,我们系统的一个重要步骤是确定我们需要应用于特定单词的哪一套转录规则,即它是否属于俄罗斯借款。如第3.1,经常使用的俄罗斯借款包含在具有相应标签的词典中。对于超出词汇(OOV)的单词,该决定是基于单词中出现的字母和字母组合而做出的。因此,我们寻找在原始哈萨克斯坦语中不会发生的特定字母,例如在词的开头的辅音序列,用于俄语的典型的辅音群,例如
等等。一旦检测到借用的字,就会分配一个特殊的标签,以供后续的处理模块使用。
一个重要的问题是检测俄罗斯借款的正确压力。我们无法在文献中提及这个问题的任何提法,仅仅描述了哈萨克语原文中的压力。然而,从我们对哈萨克斯坦方面的分析和采访中我们可以得出结论,大多数俄罗斯借款都保留了他们对源语言的压力。然而,当一个哈萨克语的一个ffi x被添加到俄语单词时,压力转移到最终音节的规则也适用。发生什么是主要的应力保留在杆上,而ffi x的最终音节会受到辅助应力,除了在杆的最终音节上有应力的单词:在这些情况下,主应力转移到ffi x,而茎保留辅助压力。我们把这个观察作为经验法则用于我们的TTS系统,尽管这个问题需要进一步的语音学习。另一个问题是检测到俄罗斯借款中的OOV词语中的压力放置。我们根据这些单词中最后的字母组合,在检测到的俄语单词中制定了一套压力放置规则。
最后,需要说一下美国数据库的录音过程。我们使用了一个语音平衡的哈萨克斯坦文本,其中包括俄罗斯普通的借款,我们还添加了一个语音平衡的俄语文本,由同一个声音艺术家(双语)阅读。俄罗斯借款和俄语部分语音数据库中的所有单词都贴上了特别的“ru”标签。在合成期间,如果输入文本中的一个单词被检测为俄罗斯借款,则在“单位选择”过程中,优选使用“ru”标记词语中的双键。除此之外,仅使用俄语部分语音数据库构建了单独的TTS语音。如果纯俄罗斯文本需要使用与哈萨克斯坦TTS中相同的声音来合成,则该语音可以与俄罗斯VitalVoice TTS引擎结合使用。

4哈萨克语自动语音识别
4.1语音数据库
演讲中收集了用于ASR培训的哈萨克语言数据库科技中心有限公司共有780个会议记录在GSM,哈萨克斯坦的线路电话网络。 每次会议约15分钟包含一位哈萨克斯坦籍演讲人的讲话。 每位演讲者在一个会议中,所以发言人总数是780,其中女性392人,男性388人。 描述记录的内容在表1中。数据库的总持续时间为147小时。 约120小时选择数据库进行声学模型训练。 单词“生物”在表1中表示当说话者被要求产生短的sponta-对他或她的传记的新描述。

4.2声学模型


在本节中,我们介绍我们的声学模型设置。我们训练了深层神经网络隐马尔可夫模型(DNN-HMM)声学模型[9],并遵循跨语言知识转移的概念[10,11],其中使俄语语料库提高哈萨克斯坦声学模型的性能。更具体地说,目标语言(哈萨克语)网络是用现有的源(俄语)网络初始化的。我们的初步结果表明,与仅针对哈萨克斯坦数据集训练的系统相比,使用俄罗斯和哈萨克斯坦的数据集显着提高了声学模型的性能。
我们使用我们的专有工具和Kaldi语音识别工具包来训练所有模型[12]。对于每种语言,我们首先使用39维Mel频率倒谱系数(MFCC)特征(C0-C12,delta和加速系数)建立了两个标准最大似然(ML)训练的GMM-HMM系统。上下文相关的三态电话状态数量为俄罗斯的1500个,哈萨克斯坦为4100个。然后,使用获得的状态绑定[13],我们训练了两个DNN-HMM模型,如图1所示。这些DNN的输入特征是具有倒谱平均归一化(CMN)的13维MFCC,以31帧(即plusmn;15)的时间拼接。所得的403维特征用于训练俄罗斯和哈萨克斯坦的DNN。

使用俄语语料库的数据对第一个DNN进行了训练。 它有5个隐藏层,每层有1000个神经元,一个具有1500个森林的softmax层,对应于俄罗斯GMM-HMM的绑定状态。 使用具有跨熵误差标准的标准反向传播算法训练DNN进行预训练。 然后将该DNN的softmax层替换为与哈萨克语言相对应的softmax层(具有4100个senones),并且通过使用状态级最小贝叶斯的多次序列鉴别训练在哈萨克语语料库上形成DNN。 风险(sMBR)标准[14]。

4.3实验
在本节中,我们将介绍IVR和KWS系统的实验结果。为了测试系统,随机选择了录音语音数据库中的40条录音,不用于训练。语法(IG)集合由“是/否”,“城市”和“Surnames”语法的测试记录组成。所有语法都有线性列表结构,分别包含2,135和230项。语法(OOG)集合是为了模仿真实条件而进行的。除“是/否”之外的所有集合包括哈萨克语和俄语单词。在等误差率(EER)方面的IVR场景的结果如表2所示。 4.2在下表中称为DNN-2。为了比较,我们还使用哈萨克语料库来训练另一个DNN声学模型(表示为“DNN-1”)。它具有类似于DNN-2的拓扑,并且以类似的方式进行了训练,除了训练前阶段:基于限制玻尔兹曼机器(RBM)的分层预训练[15]在哈萨克语言数据上进行。

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[138031],资料为PDF文档或Word文档,PDF文档可免费转换为Word

您需要先支付 30元 才能查看全部内容!立即支付

课题毕业论文、开题报告、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。