

英语原文共 5 页,剩余内容已隐藏,支付完成后下载完整资料
对极端精神病人的语音从生态角度进行有效的长期的情绪监控
摘要
语言模式通过说话人的情绪和逻辑状态被调整。存在着一个正在成长着的团体以 计算,检查这种患有沮丧,孤独,外伤的压力群体的调制 为工作。可是,在这一领域的大部分工作主要集中在对 在受控环境中收集的结构化的讲话的分析。在这里,我们通过分析极端不正当的行为扩展了现有的文献。(bp:双向情感障碍)bp 是以 情绪转换—(从一个健康稳定状态 到 一个狂躁,沮丧状态的变化)为特征。这种与情绪状态有联系的 语言模式 提供了一个独特的机会来研究情绪变化的调整特性。我们的描述一套方法去 收集 连续的不明显的非结构化的通过日常手机通话得到的语音。我们的辅助性研究表明了 狂躁沮丧心情状态能够从语音数据被识别出,对双向情感障碍皇者的 不明显的,非节构化的,连续的语音的健康监控的 可能性提供了一个新的观点。
索引词:语音分析,双向情感障碍,情绪模型
1.介绍
双向情感障碍是一种常见而严重的疾病,特征是由病理引起的狂舞和沮丧 还与个人,社会,职业的可怕的后果由联系。(20%以上的几率自杀)双向情感障碍是世界残疾的主要原因之一。仅仅在美国的损失被估计为每年450亿刀。这些经济和人员的损失,随着医疗保健价格的快速增长而增长,为 医疗保健服务的转移,也可以说是检测和优先护理集中在预防提供了动力。在本文中,我们提出了我们的试点调查方法去悄悄的收集和分析语音数据为了满足长期健康监控这种日益增长的需求。
语音模式已经被有效的用于对医疗和精神疾病的评估。临床医生被训练去记录他们的讲话和语言,这已经成为了诊断过程的重要组成部分。最近,已经有研究工作去探索,计算语音分析,作为一种 评估和监控有多种精神疾病的精神病人的精神状态的方式,特别是抑郁症(MD),自闭症,创伤后障碍(PTSD)。
压力和焦虑已经被广泛研究并且说话的元素已经与在创伤后障碍(PTSD)后的主管应激关联起来了。研究工作已经证明 除了预测的过程和疾病的严重程度 对孤独症的基于语音的评估效率重点在诊断。语音模式的变化也被用于对重型抑郁障碍的计算检测和严重程度的评估。然而,这个领域大多数工作重点主要集中在对短时间内参与者的评估,最多几个星期,使它测量伴随疾病轨迹的自然波动的挑战性。此外,输入的语音通常是高度结构化和在受控环境中收集的,妨碍了理解怎样把 自然语音变化的声学特征与情绪症状联系起来。
本文重点研究对双向情感障碍患者的情绪状态估计。这种疾病的特点是情绪状态的波动,包括抑郁时期(情绪低落状态),躁狂(情绪高涨状态),情感正常(既不抑郁,也不躁狂)。这个症状的动态性和双向情感障碍的病程是非常合适于 声学模式与情绪和疾病状态的联系的研究。此外,与之前工作不同的是 在比较短的时间内检查个体,我们研究中的人群 被连续监控超过一个6个月到一年的过程,使用我们的基于手机的录音软件,悄悄的记录所有输出的语音。
本文提出的工作表现为 一个针对关于我们初步收集有双向情感障碍的6个人的试点分析。我们数据的真实标签通过在参与者和被训练过的医生之间组织活动被建立。我们证明我们能检测到狂躁和沮丧出现在这些通话中。我们进一步测试这种假设即一种非结构化设置(临床外的相互作用)能够被用来评估潜在的情绪状态。我们提供的证据不论是从结构化的还是非结构化的通话数据中记录下来的与情绪相关的变量都反映了基本情绪症状 而且这种情绪模式的听觉变化交叉早在这些不同的对话类型里。此外,我们强调的与说话的特点最相关的是狂躁症的临床评价和抑郁情绪状态。
我们的方法的新颖性 在于在不同的环境中纵观的,生态的和连续的采集非结构化的语音 还有 对双向情感障碍的参与人群的声学分析中显示出的情绪状态- 在极端的情绪状态谱,抑郁和躁狂。我们的研究结果表明这种数据采集的方式能够有效的被使用,突出了为了心理健康评估从生态方面有效自主的监视的潜在的能力。
2. 密歇根大学布雷希特声学数据库(UM-PAD)
描述:密歇根大学布雷希特声学数据库由 bp纵向研究 从被诊断具有双向障碍的人 纵向收集的语音 组成,多年的研究得到了一个多维的,生物的,临床的和环境的,接近了对双向障碍的研究。
登记:UM-PAD 包含 从六个参加者收集的语音数据,四个女人两个男人(平均年龄41士11.2)被诊断双向障碍类型I和复发历史,特征为每年四次或更多的狂躁,轻躁狂或抑郁。参与者从普雷奇特的纵向研究被招聘并且招收六个月到一年。
协议:每个参与者被提供一个智能手机和一个无限制的呼叫/数据计划为了个人使用并且鼓励使用手机作为他们的主要接触方式。这个手机被预装了一个应用仅仅用来记录参与者的语音(即不捕获或记录打进来的),在8khz,无论他们什么时候拨打或者接听电话。所有手机到的语音被加密并且安全的传输用于分析。这个应用,数据传输,和处理严格的遵循经内部审查委员会批准的(IRB hum00052163)安全和加密准则以确保收集的完整的和私密的数据不被泄露。
每周的情绪状态标签:参与者情绪状态的实际状况被 与此项目相关的临床医生每周通过电话的互动来获得使用。临床医生给了20分钟的记录一个评估就是计算参与者过去一周的情绪状态。这个评估包括17项去评估抑郁症和狂躁的程度,分别为汉密顿抑郁量表(HAMD)以及杨氏躁狂量表(YMRS)。在我们采集的当前阶段,没有参与者表现出带有狂躁情节的严重症状。结论是我们的目标是检测轻度躁狂(高涨的情绪状态并没有达到躁狂的程度)。
我们把这种情绪的评估使用阈值设置通过临床团队来分类。最后的标签如下:轻躁狂:YMRS gt; = 10和HAMD评分<10。郁闷:HAMD gt; = 10和YMRS<10。稳定期:YMRS<10及HAMD评分<10。混合:YMRS gt; = 10 HAMD gt; = 10。不过,由于收集到的数据的太少了,混合情绪状态不包含在本文中。
每周的临床的评估(通话评估)提供了一个衡量 参与者过去一周的情绪状态 临床医生对参与者当前情绪状态的认知 的标准。我们猜测 在评估过程中标签的校正与评估过程中参与者的情绪有很大的关联 因此,与情绪有关的语音调制 在呼叫期间被记录下来。我们进一步猜测 与评估呼叫不相交的呼叫集合,临床作用之外的呼叫记录,将拥有一个更微妙的情绪症状表达,可能包括症状的掩盖性,并且与临床评估标签联系不强。重要的是要注意只有具有标签的数据才是评估通话。
通话记录的统计:从3588条通话记录下来的总共221.1小时。平均每天4.9加减4.3参与者,平均持续时间为222加减480.7秒和和中位数为67.4秒。
通过参与者每周可用数据的数量的变化:参与者1有31周的数据,参与者5有6周的数据。
每个参与者的数据包括稳定状态下的周期和至少一个轻躁狂和/或抑郁周
表1为对每个参与者收集到的数据提供了一个概述,显示了采集的具有被分别评估为稳定,轻躁狂和沮丧的 数据的周的数量。
┌────┬───┬───┬───┬───┬───┬───┐
│Part.# │1 │2 │3 │4 │5 │6 │
├────┼───┼───┼───┼───┼───┼───┤
│#(E:H:D)│22:2:7│9:0:4 │21:1:3│10:9:1│2:4:0 │3:0:4 │
└────┴───┴───┴───┴───┴───┴───┘
3.分析计划
我们的研究的目标是在不显眼和非结构化的环境中使用收集到的语音数据:
(1)预测 临床评估 在临床医生每周估计通话;
(2)确定 对以同一天的非结构化的个人手机录音作为评估呼叫 探测情绪状态的可行性。
(3)应用这个检测 手机记录 从几天前的后的评估通话。
我们还进行特征分析去识别语音特征为了最准确的情绪分类。
这个评估任务是非常具有挑战性的 由于数据标签(每周的评估)的稀疏性质,声学的变化性与人类的交流和自然情绪的变化性相关联,并且有不可控的环境因素引起的变化。一个成功的结果将表明在不受控制的和非结构化的环境中收集的语音数据表现出类似的声学变化和在结构化临床互动中收集的语音数据,这将支持 纵向健康监控的可行性和利用临床数据在非结构监测中部署的种子模型 的可行性。
数据集合:为了解决上面的本研究的问题这个数据库的数据被分区。这种分区基于 靠近评估通话。回想一下,评估录音是唯一的被标记的录音。此外,狂躁和抑郁的时间一致性是可变的和依赖于人的。因此,预计评估通话的标签和在他前一天或后一天的被记录评估的通话 有强烈的联系。
数据被划分为一下几个不相交的数据集。表2描述了之前参与者的被分配了三个标签中的每一个的通话数量的总结。这个集合包括:
评价通话:在评估被标记的通话期间被作为临床评估 轻躁狂,抑郁,稳定,的基础收集的语音。
当天通话:从临床评估的那天被记录下来的通话中收集的语音,不包括评估通话。
之前或之后的通话:从仅在相邻的一天(前或后)所有 拨接通话中收集的语音。
训练方法:分类算法通过对参与者独立建模被训练,捕捉与个体数量相关的变化,而不是特定的一个人。因为数据库规模的持续增长我们预计利用依赖参与者的建模策略。参与者独立建模的目标是理解如何被调制的语音作为一种情绪状态的方法 同时减轻个体变化的影响。
我们测试我们的模型通过使用 脱离一个参与者之外的交叉验证框架,每一个参与者都被测试并且其余的参与者被用于训练。验证集通过 在训练集之内交叉验证之外的 脱离每个训练的参与者获得 。我们训练我们的模型通过使用所有的数据来自稳定的,轻躁狂的,抑郁的类别。我们评估 我们的抑郁躁狂分类器的性能 仅仅对至少有两周的参与者 被标记的评估通话作为抑郁或躁狂。
表2.指定每一个分类标签的通话数量:
4.特征和分类器
重要的是我们保护 参与者从私人手机通话中收集的语音的敏感性质。这样做是通过从段级别的音频功能提取的统计数据的使用,而不是特征本身。这种统计窗口的长度至少被计算出来三秒。这种窗口掩盖了原始语音的词汇内容,致使重建个人的话语极具挑战性。
低层次的特点:我们使用the openSMILE 工具包提取23个低层次的特征。对于每个被记录的通话,被15ms重叠的25ms的窗口化语音,在每帧中提取以下特征:
音调,利用自相关和倒谱法计算,有声窗口的音调量。对于无声窗口的音调设为0。一个有声的窗口通过一种调声概率测量被确定,也包括在llf中。(低层次特点)
RMS 能量,过零概率,和语音波动的最大最小值。
三种语音激活检测(vad)测量:模糊,平滑,二进制。模糊程度是通过线谱的频率,mel谱和能量来估算。平滑程度是同一模糊下10个点平均移动的光滑的结果。二进制程度,是一个1/0的特征,通过阈值模糊程度去评估存在的语音。
梅尔频谱的幅度超过14个波段范围从50hz到4khz。
段级别的特征:三种语音激活检测(vad)测量和调声可能性提供了一个输入语音波形的沉默波段和语音位置的估计。我们使用这些措施将从3秒到30秒的参与者语音分为连续的部分。我们把通话划分成至少三秒非重叠的区域。我们首先确定三个特征 能量,表示概率,和模糊的vad在所有通话的前40%的连续帧。我们在一段结束 30个连续的有能量,发声概率和模糊vad测量低于全部通话40%帧。如果段落的长度在达到停止标准之前超过30秒然后段落被结束并别一个新的被开始;这种情况少于段落的3.5%。每一个通话平均有24.3士46.6段,中位数为8。
我们用一个从llfs的统计每个段资料得到的51维的特征向量代表每个段。这包括46个每一个被估算的段(为了音调,只计算有声语音帧)的llf,段长度和 平均和标准差和四个段级别的特征:相对和绝对的抖动和闪烁的程度。每一个被记录的通话Ci,Ni代表特征向量,Ni的段数是i
分类器:在分析中使用的分类器是线性的径向基函数内核的支持向量机(svm),分别使用liblinear 和 LIBSVM实现。rbf核心参数被调整在{0.001,0.01,0.0001,0.1,1 }范围里在独立参与者验证集。正则值因为现行和rbf实现被调整C属于{100,10,1,0.1,0.01 }。这个分类器被训练成具有段级别51维特征。
对于每一个测试通话(Ci),我们独立的将每个通话分成Ni段Si,j(j=1...Ni).对于每一个段,我们计算它到超平面的正负距离dij。我们聚合到一个向量Di的每个距离。每个通话的平飞与Di的百分比有关联。这个百分比通过验证集超范围p属于{10, 20, 30, 40, 50, 60, 70, 80, 90}被选则。
5.结果和讨论
在这一节中我们展示区分轻操狂和稳定以及抑郁和稳定的使用独立参与者语音训练,测试,和验证方法的疗效。性能被通过通话级别区域在接收机工作特性曲线(auc)之下被评估。
数据集的评估:表三提供了 在第三节讨论的三个数据集的结果。结果证明我们能检测每个在临床活动期间被记录通话的人的情绪状态。在所有参与者中,我们得到的对于轻躁狂的平均AUC 0.81士0.17和对于抑郁的平均AUC0.67士0.18。
预计这种分类系统的性能将会减小,从评估通话数据集到当
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[28925],资料为PDF文档或Word文档,PDF文档可免费转换为Word
您可能感兴趣的文章
- 饮用水微生物群:一个全面的时空研究,以监测巴黎供水系统的水质外文翻译资料
- 步进电机控制和摩擦模型对复杂机械系统精确定位的影响外文翻译资料
- 具有温湿度控制的开式阴极PEM燃料电池性能的提升外文翻译资料
- 警报定时系统对驾驶员行为的影响:调查驾驶员信任的差异以及根据警报定时对警报的响应外文翻译资料
- 门禁系统的零知识认证解决方案外文翻译资料
- 车辆废气及室外环境中悬浮微粒中有机磷的含量—-个案研究外文翻译资料
- ZigBee协议对城市风力涡轮机的无线监控: 支持应用软件和传感器模块外文翻译资料
- ZigBee系统在医疗保健中提供位置信息和传感器数据传输的方案外文翻译资料
- 基于PLC的模糊控制器在污水处理系统中的应用外文翻译资料
- 光伏并联最大功率点跟踪系统独立应用程序外文翻译资料
