"声"だけで、うつ病はどこまで診断可能か? ~音声感情認識技術にアンサンブル型機械学習モデルを応用したうつ病スクリーニング機能に関する精度の検証

執筆者 宗 未来 (慶應義塾大学)/竹林 由武 (福島県立医科大学)/関沢 洋一 (上席研究員)/下地 貴明 (スマートメディカル株式会社)
発行日/NO. 2016年9月  16-J-054
研究プロジェクト 人的資本という観点から見たメンタルヘルスについての研究 2
ダウンロード/関連リンク

概要

近年、音声から感情を推測する技術が開発され、商業化されている(音声感情認識技術)。本研究では、この技術がうつ病の診断に活用できるかを検証した。オンライン調査で、約2000名の被験者に2カ月おきの3時点において音声を吹き込んでもらうと共に、うつ病のスクリーニングに使われている質問票に答えてもらい、収集したデータを解析した。最初に、得られた音声情報(パワースペクトル)からpitchgainpowerなど7種類の音声パラメータを抽出し、個々の音声パラメータと抑うつ指標との間の関係における説明モデルを、3種類の代表的なアンサンブル型の機械学習を競合させて構築した。具体的には、抑うつ評価尺度のPHQ-9で10点以上を"うつ病"と定義した上で、時点1と時点2のデータを組み合わせて、SMOTEアルゴリズム(Synthetic Minority Over-sampling Technique)を用いて無作為抽出した70%のデータで診断精度の高いモデルを構築し、それを使って、残りの30%のデータについて、"うつ病"の診断精度を検証した。Random forestモデルを用いた機械学習の結果、診断精度の指標とされるROC曲線(受信者動作特性曲線:Receiver Operating Characteristic curve)におけるAUC(曲線下面積:area under the curve)において、性別や年齢といった属性データのみの場合の診断精度が中程度だったのに対して、音声解析のみ、あるいは音声解析と属性データを合わせた場合の方が、高精度でうつ病の診断が可能であることが確認された。しかし、これらの診断モデルを用いても、2カ月の時間間隔を経た時点3のデータを用いてのうつ病の診断や予測においては、十分な精度が得られなかった。以上のことから、音声感情認識技術には高い潜在性は示されたものの、更なる技術の改善が必要と考えられた。