题名自然情境语音识别抑郁症的研究
作者隋小芸
答辩日期2017-05
文献子类硕士
授予单位中国科学院大学
授予地点中国科学院心理研究所
导师朱廷劭
关键词语音识别 抑郁症 自然情境 年龄 地域 语音时长
学位名称理学硕士
其他题名Depression Recognition with Audios Collected under Natural Enviroment
学位专业健康心理学
英文摘要

当前抑郁症发病率呈逐年上升趋势,传统的诊断方式易受主观因素影响,且需要病人主动配合,正确率一直不高。将患者的语音声学特征与机器学习算法结合,建立自动化的抑郁识别模型,可以不受限于语音的具体内容,有利于抑郁的早期诊断和干预。现有研究大多是在实验室安静环境下采集语音,并且通过特定的访谈主题来激发被试的情绪反应,这些都增加了实验设计的复杂性和抑郁识别的成本;另一方面,由于抑郁患者语音采集的困难性,以往的所有研究都存在着样本量较小的问题,这使得研究者无法针对样本中可能存在的共变因素如年龄、地域、语音时长等进行分析,同时小样本集上建立的诊断方法在更大范围内的适用性也存在问题。目前国内在语音识别抑郁症方面的研究尚处于起步阶段,还需要开展更深入的研究。

针对以往研究的这些问题:样本量小非真实环境、缺少共变分析,本文确立了研究的方向,实验主要围绕两个主题进行:

(一)使用自然情境下采集的汉语语音材料,对抑郁患者和正常入进行识别。首先对抑郁组和健康组被试的语音特征进行差异检验,发现了一些与以往研究相吻合的证据,如基频、声响、vTFCc等特征的差异变化。其次对两组样本做分类预测,在7道人口学问题的样本集上均得到超过60%,个别题目达到70%的分类准确率,这个结果证明了自然情境下采集的语音可以用来识别抑郁症。

(二)针对被试年龄、地域,样本时长、样本量的共变因素分析。首先进行了两个分类实验,证实了年龄和地域对语音的确存在影响。接着在抑郁识别的实验中,按年龄、地域或二者组合重新划分样本集,将数据划分为同质程度更高的若干子集,在各子集内分别进行抑郁识别的预测。在一系列的实验中我们都观察到了南方被试的抑郁识别效果好于北方被试,年青(30-44岁)被试的抑郁识别效果好于中老年(45-60岁),这可能与南北方言的差异或不同人群嗓音质量的差异有关。其中江苏省的样本得到了最好的分类成绩:74.83%.针对样本量和样本时长的影响,本文也开展了一系列实验。从实验结果可以看出样本量在一定条件下‘与分类准确率呈正相关,而较长的语音样本能够携带更丰富的语音特征,也有助于提高分类准确率。

在技术实现上,本文所有分类实验均基于判决融合的机器学习模型,该模型以SVM算法为主要分类算法,利用朴素贝叶斯分类器融合12个分类器的结果,判决输出最终的预测结果。12个分类器分别采用不同的特征选择算法,在特征的筛选上各有侧重,判决融合则能够平衡12个分类器的结果,得到较为稳定且处于较优水平的分类结果。

与以往研究使用的完整被试录音不同,本文的语音数据剪切自访谈对话,在一定程度上破坏了语音的连续性,因此本文没有使用语速、停顿时长等特征,对背景噪音的处理也没有得到预期的结果。在下‘一步的研究中,除了需要保证语音连续和改进降噪处理之外,采集样本时还应当注意平衡不同年龄、地域、性别的被试数量,以减少共变因素的影响;语音时长不宜过短,至少5秒以上;同时将语音特征与文本、肢体动作、表情等其他特征融合起来,也有望提高抑郁识别的精度。

语种中文
页码84
内容类型学位论文
源URL[http://ir.psych.ac.cn/handle/311026/28666]  
专题心理研究所_社会与工程心理学研究室
推荐引用方式
GB/T 7714
隋小芸. 自然情境语音识别抑郁症的研究[D]. 中国科学院心理研究所. 中国科学院大学. 2017.
个性服务
查看访问统计
相关权益政策
暂无数据
收藏/分享
所有评论 (0)
暂无评论
 

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。


©版权所有 ©2017 CSpace - Powered by CSpace