基于卷积神经网络的双耳声源定位研究文献综述

 2022-09-26 17:22:37

  1. 文献综述(或调研报告):

基于卷积神经网络的双耳声源定位研究

语音信号处理技术是当今及未来发展中重要的研究方向,语音信号处理包括语音分离、语音识别、语音编解码等,而声源定位技术作为语音分离及语音识别过程的前端处理,是其中不可或缺的重要环节。声源定位通常使用麦克风阵列来解决,通过基于到达时延差TDOA(Time Difference of Arrival)估计的定位技术、基于最大输出功率的可控波束形成技术、基于高分辨率谱估计技术等得到定位结果。然而听觉神经生理学表明,人耳的对声源的定位能力来源于对左、右耳信息的整合和比较,因此,最好将所提出的研究方法用于双耳系统,只利用两个麦克风以模仿人类听觉系统的生物结构,通过两路采集信号之间时间、相位、强度的差异实现特定声源的方向定位,即基于双耳的声源定位。

1907年,Lord Rayleigh首次提出了基于耳间线索差的声音定位理论,即双工理论[8]。双工理论表明,双耳接收的声信号存在时间差和强度差,称为耳间时间差ITD(Interaural Time Difference)和耳间强度差IID(Interaural Intensity Difference),听觉系统主要依赖于这两种双耳线索来准确地进行声源定位。以双工理论为基础,过去数十年间基于双耳的声源定位技术已经取得许多成果,这其中的大部分方法是将双耳线索作为特征,除了ITD与IID外,其它常用的耳间线索还有耳间相位差IPD(Interaural Phase Difference)、耳间电平差ILD(Interaural Level Difference)等。

将神经网络用于语音信号的处理技术,在近年来取得了显著成果。Xiao X等人[4]从广义互相关中提取特征,用神经网络来学习特征与方向之间的非线性映射,使基于麦克风阵列的声源定位具有较高的准确性和对噪声及混响的鲁棒性。在基于双耳的声源定位技术中,深度神经网络(Deep Neural Network)通常利用两种训练数据集分别进行训练,得到不同的训练模型来分别估计声源的方位和距离,模型的输入层为双耳特征线索,输出层通常为Softmax分类器,用于输出不同可能结果的概率值。例如束佳明等人[9]就是利用互相关函数和IID作为双耳特征线索来训练DNN模型,该模型能较准确地估计声源的方位角,但在低信噪比和长混响时间下准确率下降较多。王茜茜等人[10]将双耳声信号划分为若干子带分别训练模型,最终结果来源于多个子带分类器定位结果的融合,与基于DNN的声源定位方法比,基于子带DNN的定位方法在低信噪比下的估计准确率更高,表明该方法对混响和噪声有很强的鲁棒性,但该模型同样只研究前向180度的声源,且只涉及水平方位角数据。为了将声源的方位估计与距离估计统一起来,Yiwere M等人[1]将信号的时频互相关序列与ILD值作为特征训练DNN模型,实现了混响条件下以较高准确率对水平前向180度内单个声源的距离和方位角数据进行联合估计。考虑到声源定位的实际应用方向,Ma N等人[3]利用声源的速率图和DNN结合,分别建立目标源模型和干扰源模型,解决了目标声源信号在一个干扰源影响下的定位问题。Ma N等人[2]还在利用DNN来训练模型的同时加入了头部运动策略,在混响条件下能够在360度方位角范围内对已知数目的多个声源定位,该定位方法并没有涉及距离数据,利用的特征线索是互相关序列和ILD。

在确定了可以被利用的双耳特征线索后,如何训练DNN模型成为基于双耳的声源定位需要关注的问题,因为DNN的配置严重影响着对混响和噪声以及声源数目的鲁棒性。针对传统DNN表现出的缺陷, Takeda R[5]等人提出了一种在频域中工作的DNN,设计了可以处理复数的新型定向激活器并可以分层地在子带上集成方向信息。基于声源定位问题,神经网络在声音信号的处理方面应用可以拓展到很多方面, Hirvonen T等人[6]的研究利用卷积神经网络与预处理相结合,对空间音频进行分类,最终得到混响条件下单一声源包括方向和内容类型的分类结果。

基于学习的定位算法的优势是随着越来越多的训练数据变得可用,估计将变得越来越准确,而为了使模型可靠性提高,需要收集的训练数据可能以指数倍增长[10]。因此,研究声源定位的另外一个问题在于如何以较小的设计复杂度获得更完备的训练数据。通常,训练室采用播放来自数据库的语音信号作为获得训练数据的方法。Chakrabarty S等人[7]提出了一种基于CNN的宽带DOA估计分类方法,该方法可以用噪声信号进行训练,与使用语音信号相比使得训练数据集的准备更容易,并证明了噪声训练CNN框架推广到语音源的能力。

声源定位系统作为语音分离、语音识别等的前端模块,直接决定整个语音信号处理系统的性能优劣。结合近几年的研究可以看出,基于麦克风阵列的声源定位和基于双耳的声源定位普遍利用了神经网络学习的方法,基于双耳的声源定位中双耳线索非常适合作为神经网络模型的输入特征,而声源定位技术也随着神经网络模型输入和自身结构的改进,以及与其他方法的融合,逐步由静态的单一声源在一个维度的定位,扩展到多个声源、动态生源在三维空间内的定位。未来,提高估计的准确率依旧是基于双耳的声源定位技术研究的首要目的,除了依靠扩展训练数据集以改进模型的泛化外,为神经网络模型寻找更合适的输入特征,以及采用更合理的分类器结构都起着至关重要的作用。利用双耳声源定位技术准确定位目标信号,后续将目标信号与噪声或其他声音分离,可以极大地提高语音控制系统的性能;双耳声源定位也是听觉辅助设备如人工耳蜗等的核心算法;还为人工智能中人机语音交互的实现创造了条件。

参考文献:

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

课题毕业论文、开题报告、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。