基于深度去噪自动编码器的语音增强外文翻译资料

 2022-11-05 14:51:04

英语原文共 6 页,剩余内容已隐藏,支付完成后下载完整资料


基于深度去噪自动编码器的语音增强

Xugang Lu,Yu Tsao,Shigeki Matsuda,Chiori Hori

1.日本信息通信技术研究所

2.台湾信息技术创新研究中心

摘要

我们以前已经应用深度自动编码器(DAE)进行降噪和语音增强。然而,DAE仅使用在干净的语音训练中。在这项研究中,我们将进一步介绍在DAE学习中的显式去噪过程。在训练DAE的同时,我们仍然采用贪心思想预训练和微调策略。在预训练中,每层使用噪声清晰的语音对作为输入和输出(或由前面的AEs转换的噪声干净的语音对)来训练成为一个隐层神经自动编码器(AE)。用具有预训练的参数堆叠所有AE进行微调,以进行初始化。当发出嘈杂的语音时,经过训练的DAE被用作用语音估计的滤波器。进行语音增强实验来检验去噪DAE训练的性能。语音降噪,语音失真,语音质量(PESQ)标准的感知评估被用于性能评估。实验结果表明,当给出大的训练数据集时,增加DAE的深度可以提高性能。此外,与基于最小均方误差的语音增强算法相比,我们提出的异构DAE在三个客观评估中提供了更好的性能。

关键词:深度自动编码器学习,自动编码器,降噪,语音增强

1.简介

从噪声中预估清晰的语音对许多语音技术的实际应用非常重要,如自动语音识别(ASR)和助听器。许多噪声抑制和语音增强方法已经被提出了,如维纳滤波,基于最小均方误差(MMSE)的估计和信号子空间法[1]。他们大多集中在探索语音和噪声之间的统计差异(主要是二阶统计结构)。如果噪声和语音在探索空间中是分离的,则性能提升得到保证。还提出了用于噪声降低的高阶统计信息探索,其中在再现密斯希尔伯特空间法中的函数近似被应用于语音估计[2]。然而,手动给出内核功能,这对于语音处理可能不是有效的。

具有非线性处理单元的神经网络可用于自动学习高阶统计信息和降噪。为了有效地学习统计信息,相信深层网络(具有多个隐藏层)优于浅网络(具有单个或更少隐藏层)[3]。同时为了有效地训练深层网络,也提出了许多训练算法[4,5,6]。基本策略是通过贪心预训练和微调训练一个深层网络。通过这一策略,深入学习成功应用于语音特征提取和声学建模[8]。与应用于声学建模不同,我们已经应用深度自动编码器(DAE)进行降噪和语音增强[7]。在我们以前的研究中,DAE仅用干净的语音数据集来训练。DAE的输入和输出都是干净的语音。当出现嘈杂的语音时,去噪是将嘈杂语音投射到由DAE扩展的干净的语音信号子空间(或基本功能)中完成的。在这种情况下,DAE被训练为仅对清晰的语音统计信息进行编码。在本研究中,我们进一步推进研究,明确介绍了DAE训练中的去噪过程。在训练中,嘈杂的语音被输入到DAE,而清晰的语音被设置为输出。基于这种处理,DAE明确地了解干净和嘈杂语音之间的统计差异。DAE扩展的基础功能通过考虑语音和噪声的信息来强调语音统计信息。

去噪自动编码器已经在图像处理和其他应用中使用,特别适用于提取噪声鲁棒特征进行分类[9]。在他们的研究中,每个AE的输入是位屏蔽或失真版本的干净功能,如二进制屏蔽功能,不适用于语音处理。对于降噪和语音增强,通过添加许多类型的噪声来清理语音,并通过使用噪声干净的语音对或变换对每个AE进行训练,获取干净的噪声并从中提取噪点数据。基于去噪自动编码器概念,提出了针对ASR的语音特征提取中减少噪声的循环去噪自动编码器[10]。在我们的研究中,我们通过简单地堆叠多个去噪自动编码器而不再进行任何反复连接,着重于语音增强问题,并根据噪声减少,语音失真和语音质量标准的感知评估来评估性能。

本文的结构如下。第2节介绍了具有显式去噪处理的深度自动编码器的基本架构。第3节给出了实验中广泛使用的评价标准的定义。第4节显示了详细的实验结果和评估。第5节给出了讨论和结论。

2.深度去噪自动编码器

尽管限制波尔兹曼机器(RBM)首先被引入以建立深层信念网络(DBN)[4],但传统的优化算法难以用于训练网络。作为替代,神经自动编码器(AE)是建立DAE的RBM的等效模块[5]。使用AE和DAE的优点之一是许多传统的优化算法已经准备好用于培训。以前,我们采用DAE进行降噪和语音增强[7]。然而,使用干净的语音数据集来训练DAE。与鲁棒特征提取中的去噪编码器的使用不同[9],我们使用噪声干扰的语音对来训练AE,如图1所示。这是一个隐藏层神经自动编码器,以嘈杂的语音作为输入和干净的语音作为输出进行训练。它包括一个非线性编码阶段和一个用于实值语音的线性解码阶段,如:

x

W , c

W, b

y

图2.1:训练具有噪声清晰的语音对的神经自动编码器

(2.1)

其中w1和w2分别是编码和解码矩阵作为神经网络连接权重。通常,绑定权重矩阵,即,被用作正规化的一种类型。b和c分别是输入和输出层偏置的向量。隐藏神经元的非线性函数是定义为的逻辑函数。参数通过优化以下目标函数来确定:

(2.2)

其中是参数集,是对应于噪声版本的干净语音。

除了使用绑定的权重,结合正则化权重和隐藏的神经输出可以帮助更好的生成,以避免过度拟合。例如,隐性神经元输出的权重衰减和稀疏正则化被表达为:

(2.3)

其中是隐藏的神经输出的正则化函数。alpha;和beta;是正则化加权系数。 在我们的研究中,我们设置alpha;= 0.0002和beta;= 0(我们将在未来的工作中考虑稀疏正则化)。 然后可以获得参数集:

(2.4)

方程的优化 (4)可以通过使用许多不相关的优化算法来求解。在本研究中,使用基于线性搜索的准牛顿优化算法来估算[11].

通过堆叠几个AE,可以建立DAE。我们采用贪心层预训练加微调来训练DAE。在预处理阶段,当添加一个隐藏层时,下一个AE的输入是前面隐藏层的输出。在去噪案例中,转换后的噪声清晰的语音对将被用于训练。例如,如图1所示。 如图1所示,第一个AE的训练对为y和x,则下一个AE的训练对为h(yi)和h(xi)。在每一个自动编码器逐层预处理之后,所有的层被堆叠形成一个深度的自动编码器进行微调。在精细调谐阶段,初始网络参数是从预训练阶段获得的参数固定的。基于这些培训程序,最终的解决方案可能比用随机初始化训练DAE更好。

3.评价标准

我们专注于降噪和语音增强任务。因此,在本研究中我们从以下三个标准来评估神经网络的性能,即降噪,语音失真和语音质量感知评估(PESQ)[1],这些标准广泛应用于语音增强文献。由于我们将在我们的实验中广泛使用它们,我们在本节中简要介绍其定义。降噪措施的定义如下:

(3.1)

语音失真的度量被定义为:

(3.2)

在这两个定义中,使用估计信号与噪声或清晰语音之间的绝对差的平均值。N是测试数据的总数,d是输入数据的大小(DAE的第一层的大小)。基于降噪标准(实验中表示为“减”),值越大,恢复语音的质量越好。然而,减少噪音不可避免地会导致语音失真。基于语音失真测量(在实验中表示为“Dist”),值越小,恢复语音的质量越好。

除了这两个客观标准外,语音质量感知评估(PESQ)也用于评估恢复语音的质量,这是一个像客观评价的平均意见得分(MOS)。虽然与主观评价不完全相符,但与MOS相关性较高[1]。用于训练DAE的功能是梅尔频率功率谱(MFP)。然而,PESQ评估需要用于评估的波形。获得恢复的MFP后,我们执行逆变换,以合成具有嘈杂语音的相位信息的恢复语音。为了使用MFP测量PESQ的一致性,参考信号也是从干净的MFP反向合成的。PESQ评分范围从-0.5到4.5,对应于低到高的语音质量。

4.实验和评估

在本节中,我们对语音增强任务中的深度去噪自动编码器进行评估。使用350个话语的干净连续的日语语音数据集进行训练,并进行了50次测试。通过将两种类型的噪声(工厂和汽车噪声信号)添加到干净的数据集中来进行噪声数据集。信噪比(SNR)的三个等级分别为0,5和10dB。使用具有40个滤波器带的MFP作为特征。该特征从具有8ms帧移位的16ms窗口信号中提取。DAE的输入是MFP光谱补丁。每个补丁从数个连续的频谱帧中选出。 来自训练语音的80,000个MFP频谱补丁随机选择。与如[9]所述的噪声训练数据设置不同,根据干净的MFP频谱贴片,即语音中相同的时间位置,选择嘈杂的MFP谱图。

在ASR申请中,深度学习最重要的贡献之一,框架是长时间窗口数据可以级联以训练模型。在我们的实验中,我们还比较了基于不同尺寸的输入光谱补丁训练的模型的语音增强性能。我们将光谱补丁的大小增加到3,7和11帧。相应地,输入到自动编码器的尺寸分别为120,280和440。在我们的实验中,我们发现增加的输入补丁大小一致地提高了语音增强性能,但是增加了模型复杂度(具有大的训练补丁大小的模型参数的大尺寸)的成本。另外,当贴片尺寸大于11帧时,没有任何显着改善(基于语音失真度量小于0.01dB的改进,并且基于PESQ测量没有改善)。另外,当贴片尺寸大于11帧时,没有任何显着改善(基于语音失真度量小于0.01dB的改进,并且基于PESQ测量没有改善)。

表4.1 训练数据集大小(hidsize 100)的影响

训练集大小

10K

40K

80K

减数(dB)

1.99

1.94

1.93

差(dB)

0.60

0.48

0.47

PESQ

2.80

3.30

3.33

表4.2 训练数据集大小的影响(hidsize 300)

训练集大小

10K

40K

80K

减数(dB)

2.01

1.94

1.93

差(dB)

0.61

0.47

0.44

PESQ

2.77

3.32

3.44

4.1.训练数据集大小的影响

对于给定的AE网络,

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[139853],资料为PDF文档或Word文档,PDF文档可免费转换为Word

您需要先支付 30元 才能查看全部内容!立即支付

发小红书推广免费获取该资料资格。点击链接进入获取推广文案即可: Ai一键组稿 | 降AI率 | 降重复率 | 论文一键排版