只靠"语音"能在多大程度上诊断抑郁症?——验证在语音情感识别技术中应用重合型机器学习模型筛选忧郁症的功能的精确度

作者 宗未来(庆应义塾大学)、竹林由武(福岛县立医科大学)、关泽洋一(高级研究员)、下地贵明(Smartmedical株式会社)
发表日期/编号 2016年9月 16-J-054
研究课题 关于从人力资本的观点看心理卫生的研究2
下载/链接

概要

  近年来,开发了从语音推测情感的技术,并实现了商业化(语音情感识别技术)。本研究验证这种技术是否可以应用到忧郁症的诊断。研究时使用网上调查的手法,请2000名调查对象每两个月在三个时间点收录语音,同时让他们回答诊断忧郁症的提问表,分析收集到的数据。最初从获得的语音信息(功率谱)筛选出pitch、gain、power等七种语音参数,构筑对每种语音参数与抗忧郁指标之间的关系进行解释的模型,与三种具有代表性的重合型机器学习算法进行比较选择。具体来说,就是把忧郁症评估标准的PHQ-9在10分以上定义为"忧郁症",将时点1和时点2的数据结合在一起,使用合成少数过采样技术(Synthetic Minority Over-sampling Technique)算法,随机抽出了70%的数据,构筑了高诊断精确度模型,并使用这一模型,对剩余的30%数据验证了诊断"忧郁症"的精确度。使用随机森林(Random forest)模型进行机器学习的结果表明,诊断精确度指标的ROC曲线(受试者操作特征曲线:Receiver Operating Characteristic curve)的AUC(曲线下方面积:area under the curve),如果只看性别、年龄等属性数据,诊断精确度为中等,如果只看语音解析或者结合了语音解析的属性数据,忧郁症的诊断精确度较高。但是,即使使用这些诊断模型,用超过两个月时间间隔的时点3的数据验证和预测忧郁症时,却没有得到满意的精确度。从上述验证可以发现,语音情感识别技术尽管显示出高度潜力,但是还需要进一步改善技术。