

英语原文共 4 页,剩余内容已隐藏,支付完成后下载完整资料
语音增强客观测量方法的评价
Yi Hu and Philipos C. Loizou
电气工程系德克萨斯大学达拉斯理查森,美国德克萨斯州
摘要
在本文中,我们评估几个在预测噪声抑制算法增强的噪声语音的质量方面的客观测量的性能。客观测量考虑了由四种类型的语音增强算法在两种SNR下由四种类型的真实世界噪声引入的宽范围的失真:谱减法,子空间,基于统计模型和维纳算法。使用ITU-T P.835方法旨在评估语音质量在三个维度上得到的主观质量评价:信号失真,噪声失真和整体素质。本文报告了五个共同客观指标与这三个主观指标的相关性,报告了对PESQ措施的改进以及新的综合目标措施。
关键字:语音增强,降噪,ITU-T p.835,客观的措施,主观听力测试,相关性分析
1、简介
目前,用于评估语音质量的最精确的方法是通过主观听力测试。虽然语音增强算法的主观评价总是准确和优选的,但是耗时并且成本昂贵。出于这个原因,已经付出了很多努力来开发可以预测具有高相关性的语音质量的客观测量。过去已经提出了许多客观的语音质量测量来预测语音的主观质量。然而,它们中的大多数是为了评估由语音编解码器和/或通信信道引入的失真的目的而开发的。据我们所知,这些措施中只有少数(如果有的话)已经通过噪声抑制算法增强的噪声语音进行了正式评估。
在本文中,我们报告使用在我们实验室开发的适合于语音增强算法评估的噪声语音语料库(NOIZEUS)的共同客观测量的评估。该语料库用于包括四种不同类别的算法的13种语音增强算法的综合主观评价:频谱减法(多频谱减法和使用减少的延迟卷积和自适应平均的频谱减法),子空间(广义子空间方法和基于感知的 子空间方法),基于统计模型(MMSE,对数MMSE和在信号存在不确定性下的对数MMSE)和维纳类型算法(基于SNR估计的方法,基于可听噪声抑制的方法,以及基于小波阈值 )。将增强的语音文件发送到Dynastat,Inc(Austin,TX),用于使用最近用于评估基于ITU-T P.835的噪声抑制算法的标准化方法进行主观评价。 主观听力测试的结果在[3] [4]中报道。 在本文中,我们利用主观测试结果来评估几种广泛使用的客观测量。
2、语言语料库和主观质量评价
在我们的客观评价中,我们考虑了由语音增强算法和背景噪声引入的失真。我们的研究中考虑的语音增强算法的列表可以在[4]中找到。噪声被人工添加到语音信号如下。 在ITU-T P.862中使用的用于评估PESQ测量的中间参考系统(IRS)滤波器独立地应用于干净和噪声信号。首先使用ITU-T P.56的方法B确定经滤波的干净语音信号的有效语音电平。从取自AURORA数据库的噪声记录中随机地切出与语音信号相同长度的噪声段,适当地缩放以达到期望的SNR水平,并最终添加到经滤波的纯净语音信号。通过13个语音增强算法处理在两个SNR水平(5dB和10dB)的四个背景噪声环境(汽车,街道,巴布和火车)中损坏的总共16个语句。 这些句子由两个男性和两个女性说话者制作。
2.1 主观测试
主观听力测试根据ITU-T推荐P.835设计,并由Dynastat,Inc实施。P.835方法被设计为在主观测试中降低收听者的不确定性,即,有噪声语音信号的哪些分量,即语音信号,背景噪声或两者都应该形成其评级的基础 整体质量。该方法指示收听者在以下情况下连续地考虑和评价增强的语音信号:
1、单独使用信号失真的五点刻度(SIG)的语音信号(表1),
2、单独使用背景侵入性的五点量表(BAK)的背景噪声(表2),
3、使用平均意见得分(OVRL)[1 =差,2 =差,3 =中,4 =好,5 =优]的量表的总体效果。
|
5 - 非常自然,无降解 |
|
4 - 相当自然,少量降解 |
|
3 - 有点自然,有点退化 |
|
2 - 相当不自然,相当退化 |
|
1 - 非常不自然,很恶化 |
表1:信号失真的标度(SIG)
|
5 - 不明显 |
|
4 - 有点明显 |
|
3 - 明显但不侵入 |
|
2 - 相当显眼,有点侵入 |
|
1 - 非常显眼,非常侵入 |
表2:背景侵入性量表(BAK)
对噪声语音的信号和背景进行评级的过程被设计为引导听者在整体质量的评级中整合信号和背景的效果。P.835测试中的每个试验涉及三个一组的语音样本,其中每个样本由在背景噪声中记录的单个句子组成。对于三元组内的每个样本,听众连续地使用三个五分等级量表(SIG,BAK和OVRL)中的一个来注册他们对测试条件的质量的判断。除了实验条件之外,每个实验包括多个参考条件,其被设计为在评分尺度的整个五点范围上独立地改变收听者的SIG,BAK和OVRL等级。
共有32名听众被招募进行听力测试。 听众是从Dynastat的北美英语母语的数据库招募的。听众年龄在18至50岁之间。没有听众在过去三个月参加了听力测试。两个实验中的听力面板是独立的,即没有听者参与多于一个实验。测试持续约1.25小时。 听众在会话之间短暂休息(10分钟)。在第1阶段的开始,听众被提供了一个12个试验的练习块,,以熟悉他们的任务和试听演示的时间。练习块还被设计为向听众呈现将在信号和背景尺度上的测试中涉及的条件的范围。对于每个测试,一半的小组呈现其中评级量表顺序为前两个阶段的SIG-BAK-OVRL和阶段3和4的BAK-SIG-OVRL的试验。为了训练听众在规模顺序上的改变,在会话3开始时再次向练习块呈现听众。对于另一半的小组,会议和规模顺序是平衡的。
2.2 语音和噪声失真对总体质量判断的贡献
P.835评价嘈杂语音的信号和背景的过程被设计为引导听众整合信号和背景的影响,使他们对整体质量的评级。非常感兴趣的是找出语音和噪声失真对整体质量判断的个体贡献。我们以前的主观数据使我们相信,在做出质量判断时,听众更多地受到语音失真的影响。为了进一步证实这一点,我们对整体质量,语音和噪声失真获得的评级进行了多元线性回归分析。我们将整体质量得分视为因变量,将语音和噪声失真得分作为自变量。回归分析揭示了三个评级量表之间的以下关系:
(1)
其中是预测的总体(OVRL)评级分数,是SIG评级,是BAK评级。 所得相关系数为 = 0.927,误差的标准偏差为0.22。图1示出了收听者的整体质量评级相对于从等式(1)获得的预测等级的散点图。上面的公式证实了听者确实在做出评分时,综合了信号和背景失真的影响。然而,对两种类型的失真给出了不同的强调。 与我们的观察一致,在做出整体质量判断时,听众似乎更加重视在语音信号本身上而不是在背景噪声上的失真。
图1:基于SIG和BAK评级的收听者OVRL评级的回归分析
3、客观措施
评估了五个广泛使用的客观语音质量测量:分段信噪比(信噪比)、加权坡谱(WSS)的距离,感知语音质量评价(PESQ),对数似然比(LLR)和Itakura Saito(IS)距离测度。在上述客观测量和三个主观评级得分(SIG,BAK,OVRL)中的每一个之间进行相关系性。总共1792个处理的语音样本被包括在包括两个SNR水平,由13种不同的语音增强算法引入的四种不同类型的背景噪声和语音/噪声失真的相关中。 在相关系数的计算中使用三个评定量表的总共43008个主观收听分数。
LLR测量定义为[1](第48页)
其中是原始语音信号的LPC向量,是LPC矢量,是自相关矩阵的原始语音信号。IS度量定义为:
其中和分别是清洁信号和增强信号的LPC增益。每个信噪比测量值计算。在平均值中仅考虑具有在-10dB至35dB范围内的分段SNR的帧。
在上述五个客观测量中,PESQ测量是最复杂的计算,ITU-T建议用于3.2 kHz(窄带)手机电话和窄带语音编解码器的语音质量评估。 通过平均干扰值和平均不对称干扰值的线性组合获得最终PESQ分值如 [5]:
(2)
其中a0 = 4.5,a1 = 0.1,a2 = 0.0309。 显然,我们不能期望PESQ度量与所有三个质量度量(语音失真,噪声失真和整体质量)高度相关。 因此,我们考虑通过为每个尺度选择不同的参数集合(a0,a1,a2)来优化三个等级尺度中的每一个的PESQ度量。通过将等式(2)中的a0,a1和a2作为需要针对三个等级尺度中的每一个优化的参数:语音失真,噪声失真和总体质量,来获得修改的PESQ度量。 多元线性回归分析用于确定a0,a1和a2参数。方程(2)中的和的值在回归分析中被视为独立的获得变量。 在回归分析中使用三个量表的实际主观分数我们获得了适合于预测信号失真(),噪声失真()和整体语音质量()的三种不同的度量:
(3)
(4)
(5)
我们将修改的PESQ度量称为mPESQ度量。
4、评价结果
为每个客观测量计算两个品质因数。 第一个是主观质量测量和客观测量之间的相关系数(皮尔森相关),由下式给出:
其中,和分别是和的平均值。 第二个品质因数是当使用客观测量代替主观测量时的误差的标准偏差的估计,并且由下式给出:
其中是的标准偏差,是所计算的误差的标准偏差。 较小的值表示客观测量在预测主观质量方面更好。
我们用所有条件下的三个主观测量(SIG,BAK,OVRL)中的每一个来计算每个客观测量的相关系数(和。表3示出了客观测量与主观分数的相关系数,表4示出了对于每个客观测量获得的误差的相应的标准偏差。从表3和4,我们可以看到,在所有常规客观测量中,LLR测量在预测信号失真(SIG)方面表现最好,然后是PESQ,WSS,信噪比和IS测量。在噪声失真(BAK)方面,PESQ度量执行最好,其次是信噪比,WSS,LLR和IS度量。在整体语音质量(OVER)方面,PESQ测量表现最好,其次是LLR,WSS,信噪比和ITS测量。对于所有三个主观尺度,拟议的PESQ措施(方程3,4,5)优于常规措施。 在用和测量(方程3,4)分别预测信号和背景失真中获得特别大的改善。总的来说,PESQ测量没有产生与通过通信网络传输的语音所发现的语音质量的高相关性。 类似的发现也在[12]中报道。
|
信噪比 |
WSS |
PESQ |
mPESQ |
LLR |
IS |
|
|
SIG |
0.19 |
0.50 |
0.57 |
0.65 |
0.64 |
0.12 |
|
BAK |
0.42 |
037 |
0.48 |
0.56 |
0.23 |
0.07 |
|
OVRL |
0.31 |
0.53 |
0.65 |
0.67 |
0.61 |
0.11 |
表3:六个客观测量的估计相关系数。
|
信噪比 |
WSS |
PESQ |
mPESQ |
LLR |
IS |
|
|
SIG |
0.78 |
0.68 |
0.65 |
0.60 |
0.61 |
0.79 |
|
BAK |
0.53 |
0.54 |
0.51 |
0.48 |
0.57 |
0.58 |
|
OVRL |
0.58 |
0.52 |
0.46 |
0.45 |
0.49 |
0.61 |
表4:与六个客观测量值的相关性的误差()的标准偏差。
4.1 复合措施
为了进一步提高相关系数,我们考虑复合测度。 通过线性组合现有的客观测量来形成一个新的测度,获
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[28339],资料为PDF文档或Word文档,PDF文档可免费转换为Word
您可能感兴趣的文章
- 饮用水微生物群:一个全面的时空研究,以监测巴黎供水系统的水质外文翻译资料
- 步进电机控制和摩擦模型对复杂机械系统精确定位的影响外文翻译资料
- 具有温湿度控制的开式阴极PEM燃料电池性能的提升外文翻译资料
- 警报定时系统对驾驶员行为的影响:调查驾驶员信任的差异以及根据警报定时对警报的响应外文翻译资料
- 门禁系统的零知识认证解决方案外文翻译资料
- 车辆废气及室外环境中悬浮微粒中有机磷的含量—-个案研究外文翻译资料
- ZigBee协议对城市风力涡轮机的无线监控: 支持应用软件和传感器模块外文翻译资料
- ZigBee系统在医疗保健中提供位置信息和传感器数据传输的方案外文翻译资料
- 基于PLC的模糊控制器在污水处理系统中的应用外文翻译资料
- 光伏并联最大功率点跟踪系统独立应用程序外文翻译资料
