具有噪声鲁棒性语音识别的多通道语音处理结构:第三次CHIME结果外文翻译资料

 2022-12-18 16:01:25

英语原文共 8 页,剩余内容已隐藏,支付完成后下载完整资料


具有噪声鲁棒性语音识别的多通道语音处理结构:第三次CHIME结果

卢卡斯·菲芬伯格,托拜厄斯·施兰克,马蒂亚斯·拉瓦伊勒,马丁·哈格姆·拉瓦伊勒,弗朗茨·佩尔纳科普夫

信号处理与语音通信实验室

奥地利格拉茨工业大学

摘要:噪声环境下的语音识别是一个严重问题。CHiME3挑战的目标是在诸如街道、公共汽车,咖啡厅,及行人专用区等现实环境中实现鲁棒语音识别。我们研究了用于预处理多通道语音记录的各种波束形成器。特别地,我们研究了三种广义旁瓣对消器(GSC)波束形成器的变体,即具有稀疏阻塞矩阵(BM)的GSC、具有自适应BM (ABM)的GSC和具有最小方差无失真响应(MVDR)和ABM。此外,我们应用了几个后置滤波器来进一步增强语音信号。我们介绍了最大功率后置滤波器和深度神经后置滤波器(DPFs)。DPFs在测量总体感知评分(OPS)和语音质量评估 (PESQ)时明显优于我们的基线系统。特别地,相对于3号钟的基准线,DPFs平均相对提高17.54% OPS点,PESQ平均相对提高18.28%。当DPFs与ASR引擎结合使用时,在模拟开发和评估数据上也获得了最佳的WER。分别为8.98%和10.82%。所提出的MaxPower波束形成器在CHIME3实际开发和评价数据上获得了最好的整体WER,分别是14.23%和22.12%。

关键字:多通道语音处理,深度后滤波,自动语音识别

  1. 引言

背景噪声是语音识别系统性能下降的主要原因。而单通道语音预处理的能力是有限的。多通道系统利用声场的空间信息,通常能取得较好的语音识别效果。自适应波束形成技术是一种广泛应用于语音多通道预处理的盲源分离方法,可以达到足够的降噪效果。波束形成器通常用于带后滤波器。

CHIME3挑战的目的是开发一个多声道语音识别系统[1],在这个系统中,我们遇到了一个多声道录音的扬声器位于近场,嵌入了大部分远场噪声。设置包括不同的扬声器、噪声环境和现实的问题,如麦克风故障、分片和其他记录故障。

本文提出了一种多通道语音增强系统。利用自回归模型的预测误差检测记录故障。然后,我们使用方向相关的信噪比(DD-SNR)算法[2]估计扬声器相对于麦克风阵列的位置,该算法也提供了一个足够准确的语音活动检测(VAD)。针对广义旁瓣对消器(GSC)波束形成器,利用说话人的位置得到了波束形成器的转向矢量。本文还提出了两个新颖之处:首先,我们引入了一种MaxPower后置滤波器(PF),从而获得了对CHIME3实际数据的最佳语音识别结果。其次,我们提出了深神经PFs -连接到波束形成器的深神经网络,显著提高了目标语音的整体感知质量(OPS),并在模拟数据上优于基线系统。该前端,即三个波束形成器的变种和不同的PFs,是用于主观语音质量评估PESQ和OPS的方法[3]。

在后端,我们使用了两个基于Kaldi toolkit[4]的语音识别系统。第一个是GMM系统,该系统广泛利用了特征变换,为远程说话语音识别提供了良好的结果[5]。第二种是DNN系统,该系统使用受限制的玻尔兹曼机器进行预培训。交叉熵训练与国家级最小贝叶斯风险训练[1]。我们最好的模型,即带有GMM后端的MaxPower PF。将基线增强系统的单词错误率(WER)从37.61%降低到实际评价的22.12%(比41%相对改进)。

论文的主要工作内容如下:第二部分介绍了该系统的总体结构。第三节介绍了多通道语音处理方法,包括所提出的波束形成器。第4节介绍了PFs,第6.1节总结了前端的PESQ和PEASS评分。ASR系统在第5节中给出,结果在第6.2节中讨论。第7节总结全文。

  1. 系统总览

图1显示了所提出的ASR系统的组件的设置。语音估计S、噪声估计N和波束形成器输出Y输入后滤波器,预判增强语音估计S。然后,应用语言模型重新评分,计算最终的错误率(WER)。

  1. 多通道语音处理

6个麦克风通道的输入信号向量X为

其中S为语音信号,N为6通道输入信号在频域内的噪声部分,k和I分别表示频率仓和时间帧,A(k, l)表示从真实说话人位置到每个麦克风的声传递函数(ATF)。在这个挑战中,额外的信息是由噪声上下文提供的,即每个话语之前的一小段纯噪声信号。比赛组织者提供的注释中引用了每个话语的噪音上下文。这使得空间噪声相关矩阵神经网络的估计成为可能。

其中E{.}表示期望运算和厄米转置。我们发现,噪声环境在某些话语中含有言语,这将导致波束形成器中的言语抵消。因此,我们决定使用VAD自适应估计。

3.1失败的通道检测

上述信号模型要求信号严格符合线性时不变理论。显然,这样的错误在多通道语音增强(如波束形成)之前,必须检测到记录故障、振幅变化、时移或tal信号丢失。我们特别注意到,尤其是第四频道和第五频道,在大约15%的孤立录音中,都显示出相当复杂的录音故障。来掩饰这些问题。仅仅一个能量阈值可能不会消失。因此,我们在时域[6,7]对每个信道c采用自回归线性预编码(LPC),并以预测误差e(t)作为判断信号是否失败的标准。即。

其中a(m)为LPC系数,m = 100。若预测误差e(t)的功率位于各通道预测误差能量中值附近plusmn;10dB区间外,则认为通道c(t)为故障。如果检测到失败的通道,则此通道不用于进一步处理。

3.2。到达方向估计

为了成功波束形成一个精确的方向 (DOA)估计是必要的。为此,已经提出了舵机响应功率相位变换(SRP-PHAT)[8]算法。但它缺乏一个合适的VAD估计,这可能也有助于估计语音停顿时的空间噪声相关矩阵。为此,我们使用了我们的DD-SNR算法[2]。在一个理想的球形噪声声场假设下,即。

其中,DD-SNR也用作VAD。T为各麦克风对之间到达的相对时差(TDOA), A、对应的ATFs、Ixx和INN为多通道信号X和噪声分量的空间相干矩阵[2]。最优TDOA T也使sr最大化。它可以通过使用TOPT 搜索一组可能的延迟来确定每个时间帧I。我们将r量化成13个等距段,这对于每个麦克风对和给定的孔径来说都是足够的。

3.3波束形成

评估了多种波束形成和多通道语音增强算法[9-13]。我们决定使用通用旁瓣对消器(GSC)[14]。主要的其原因是其可观测的经验性能和对给定问题的鲁棒性。

整个波束形成器可以表示为

使用固定波束形成器(FBF) F、自适应(AIC) H和阻塞矩阵(BM) b,我们具体实现了以下三个GSC变体,具体内容将在以下小节中介绍。详见[2,15]。

3.3.1.GSC与稀疏BM

这个变体是标准的GSC,如图2所示。的F(k,l) = HkA。BM定义为[16]

其中M = 6个通道。并以1频道为参考微信。式(6)中的asterix表示共轭复数系数低。我们在实现中使用了信号能量最高的信道作为参考。AIC H是一个非因果自适应滤波器。

3.3.2自适应阻塞矩阵(ABM) GSC

该变量的特征是自适应BM,如图3所示。ABM的列被设计为非因果自适应滤波器,并通过归一化最小均方(NLMS)方法[17]确定系数。

3.3.3.GSC与MVDR和ABM

利用section 3.2中的DD-SNR作为VAD,可以估计语音停顿时的空间噪声相关矩阵NN。因此,GSC可以被替换为最小方差无失真响应(MVDR)解[18,19]

这已经在基线增强系统中提供了,但是估计神经网络可能是不准确的,因此我们只使用MVDR 方式替换了图2中的FBF。这允许额外的噪音可以通过ABM和AIC消除。

  1. 预滤波器

4.1最大能量预滤波器

我们的第一个后滤波器是基于GSC与MVDR和ABM。与[15]类似,波束形成器输出Y(k,l)使用ATFs A(k,l)反向投影到麦克风。这种方式。麦克风输入X可以分解成它们。

该方法的最终输出为每个频率库k和时间帧|S(k, l)|平方的最大能量. 由于S(k,l)的相位不匹配,将无法重构回时域。为了避免这个循环,S(k,l)中的每个通道已对齐到设置的地理度量原点。

4.2 多通道预滤器

作为第二个后置滤波器,我们使用了我们在[2]中提出的参数多通道维纳滤波器(PMWF)。在已有噪声PSD矩阵的情况下,估计波束形成器中的噪声功率就变得很简单。在波束形成滤波器W下,波束形成器输出的剩余噪声功率为

以及波束形成器的总输出功率

实值增益掩模G为

其中在(k, l)是信噪比。进一步平滑时间可以使用谱相减算法,如均方误差对数谱振幅估计器[20]。

4.3深度神经预滤器

上图代表深度后过滤模型的变体。神经网络将波束形成的语音、噪声或匹配增益掩模G映射到最优增益掩模G。

在[21-24]中,将深度神经网络(DNNs)应用于单通道信源分离,提高了PESQ和OPS评分的整体语音质量。为了分析DNNs对多通道输入的增强能力,我们引入了深度后滤波模型。我们使用DNNs将波束形成的对数光谱图输出映射到近距离麦克风(通道0)估计的最佳增益掩模G。特别地,模型(a)使用串级波束形成的语音日志谱图和噪声日志谱图。

我们使用1.3.5帧的上下文窗口和CHiME3数据库子集上的MSE标准,用激活函数训练了3层多层感知器[25]。我们特别从模拟训练语料库中选择了400个语音,50个语音和50个测试语音。图5和图6分别显示了后滤波(PF)模型(a-e)的PESQ和OPS评分[3]。为了客观评价,我们将估计的语音与有MVDR和ABM(有/没有PMWF后滤波)的GSC和基线系统的输出进行比较。最好的深度后滤波器,即PF变种a (PFa), OPS得分为71.97。验证分数为54.83,测试操作为50.83。它的性能优于波束形成信号GSC-MVDR-ABM(带/不带PMWF后滤波)以及提供的时钟3基线系统。因此。我们将进一步研究这种方法在ASR中的应用。

  1. ASR自动语音识别

本文所采用的ASR系统均基于CHIME3挑战[1]所提供的基线系统。GMM系统采用梅尔倒谱系数(MFCC)作为特征,并将其作为一系列特征空间变换的输入。应用线性判别式分析,其特征按此顺序转化。极大似然线性变换与特征空间极大似然线性回归。此外。说话者之间的差异可以通过进行自适应训练来补偿。事实证明,这条管道在这方面极具竞争力。

CHIME2挑战[5]。DNN系统采用了40维的过滤库特性,并使用具有6个隐藏层的受限玻尔兹曼机进行了预训练。DNN的交流智能训练阶段采用4个隐层,并进行交叉熵训练。最后,利用状态最小贝叶斯风险准则进行序列判别。在下面的部分中,我们将描述对基线系统所做的更改。这些都可以在前端和后处理阶段找到。

5.1特征提取

与使用MFCC特性的基线相比,我们还使用了幂正态倒谱系数(PNCC)[26]。对于这些特性,我们使用一个窗口持续时间为25 ms、步长为10 ms的汉明窗口(与MFCCs并行),提取13个特性并收集其中的delta和delta-delta。

5.2恢复

后处理步骤的特点是n-best列表语言模型重新取心。为此,我们收集了每个话语的36个最佳假设,并使用基于类的递归网络语言模型(RNN-LM)对它们重新加权[27]。RNN-LM仅根据官方培训数据进行训练,并配置为使用50个类的大小。

  1. 结论和探讨

挑战的数据和录音设置在[1]中有详细描述。数据包括两组记录:真实数据和模拟数据。第一种是在嘈杂环境中录制的语音。第二个是在相同的噪音环境下录制的干净的录音与噪音混合。真正的录音是用6个麦克风制作的,这些麦克风专门安装在一个手持平板电脑上。使用该设备的录音在四种不同的环境中进行:在总线(bus)上。在咖啡馆(CAF)、行人区(PED)和街道交界处(STR)。对于真实数据,有一个额外的通道记录与一个头戴式近距离通话麦克风。然而,这种方法不能直接用于获得ASR结果,而只能用于训练。

6.1预处理的结果

为了评估我们的三个波束形成器,我们使用PESQ和OPS评分。对真实数据集的通道进行评估,对模拟数据集的华尔街日报语料库进行评估。表1和表2显示了我们的四个波束形成器的得分。基线增强用于比较的付款系统。此外,GSC-MVDR与ABM和深层后滤波(PFa)在OPS和PESQ评分方面优于其他波束形成器。特别是与基线增强系统相比,该系统的OPS平均相对提高17.54%,PESQ平均相对提高18.28%。

6.2 ASR的结果

表3给出了

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[20109],资料为PDF文档或Word文档,PDF文档可免费转换为Word

您需要先支付 30元 才能查看全部内容!立即支付

发小红书推广免费获取该资料资格。点击链接进入获取推广文案即可: Ai一键组稿 | 降AI率 | 降重复率 | 论文一键排版