ノンテクニカルサマリー

"声"だけで、うつ病はどこまで診断可能か? ~音声感情認識技術にアンサンブル型機械学習モデルを応用したうつ病スクリーニング機能に関する精度の検証

執筆者 宗 未来 (慶應義塾大学)/竹林 由武 (福島県立医科大学)/関沢 洋一 (上席研究員)/下地 貴明 (スマートメディカル株式会社)
研究プロジェクト 人的資本という観点から見たメンタルヘルスについての研究 2
ダウンロード/関連リンク

このノンテクニカルサマリーは、分析結果を踏まえつつ、政策的含意を中心に大胆に記述したもので、DP・PDPの一部分ではありません。分析内容の詳細はDP・PDP本文をお読みください。また、ここに述べられている見解は執筆者個人の責任で発表するものであり、所属する組織および(独)経済産業研究所としての見解を示すものではありません。

人的資本プログラム (第四期:2016〜2019年度)
「人的資本という観点から見たメンタルヘルスについての研究 2」プロジェクト

1.問題意識

うつ病は高額な社会的費用を伴う重要な疾患である。2005 年の日本人成人におけるうつ病の総費用が2 兆円と推定されている(Sado et al., 2011)。また、うつ病の人は、脳卒中、心疾患、認知症などさまざまな疾患を発生しやすいことが知られており(Naylor et al., 2012)、うつ病の適切な診断と治療は、うつ病以外の病気による社会的費用を軽減する可能性がある。

うつ病の診断コストの大きさは世界的に問題にされており、被験者や評価者の主観に影響を受けて客観性を欠くことも問題視されている。仮に、シンプルで効率的で信頼性の高いうつ病の診断方法が実現すれば、診断コストを大きく削減するのみならず、迅速な対応や人手をかけない自動的なトリアージといった画期的で有効なメンタルヘルスが実現するなど、臨床的および社会的な恩恵は図りしれない。

人の一生は『産声』にはじまり、『泣き声』で空腹や体調異常といった生命に関わる重大情報を周囲に伝えるように、『声』は生命に直結する感情情報を伝える重大なインターフェースでもある。そして、成人においても『声』から私たちは他人の気持ちを推し量るように、『声』には生物としての本能に関わる感情が深く結びついていると考えられている。研究領域においても、「発話」は行動に基づいた診断方法の中でも重要なものとして注目されている。

近年、我が国でも音声から感情を推測する技術が開発され、商業化されている(音声感情認識技術)。本研究では、この技術を用いて、音声から収集した音声データと性別や年齢等の参加者の属性データだけでうつ病の有無をどれだけ正確に診断できるかを検証した。実際には、オンライン調査で、約2000名の被験者に2カ月おきの3時点(時点1、時点2、時点3)において音声を吹き込んでもらい音声データを取得すると共に、うつ病のスクリーニングに使われる質問票(PHQ-9)に答えてもらい、うつ病の有無に関するデータも取得した(PHQ-9の得点で10点以上がうつ病という判断基準にした)。

2.手法

複雑な音声データ(入口情報)からうつ病の有無(出口情報)を判定するためには、どういう音声のパターンであればうつ病の可能性が高いかを診断するための入口と出口を結びつける、いわゆる数学的な公式づくり(=診断アルゴリズムの構築)がまず必要になる(STEP1)。そして、できあがった公式が本当に正しいかどうかの答え合わせも不可欠である(STEP2)。

本研究のユニークな点としてSTEP1において、「こんな音声データのパターンならばうつ病の可能性が高いはず」、といった仮説を人の頭で推測して当てはまる公式をつくるようなことをせずに、入口情報(音声データ)と出口情報(うつ病の有無)を最もうまく結びつける複雑な公式を最新の技術によって自動計算(=機械学習)で求めた点が挙げられる。具体的には、3種類の異なる機械学習のアプローチ(Bagging, Random Forest, Boosting)を使って、これらのアプローチを競わせた上で最も精度の高い公式(診断アルゴリズム)を採用する方法論をとることで、より高い診断精度を得ようとする解析戦略をとった。

本研究では、うつ病の判断基準を満たす被験者の割合が約1割と少なく、このままでは精度の高いモデルが構築できないという問題があった。そこで、時点1と時点2のデータを元に、オーバーサンプリング法という手法によって、うつの人々と非うつの人々のバランスがとれるようなデータセットを生成し直し、このデータセットの中からランダムに抽出した70%のサンプルをモデル構築のための訓練データとしてSTEP1に利用し、残りの30%をSTEP2の検証データ(検証データ1)として検証のみに用いた。時点3のデータは、STEP2の更なる検証のみに用いた(検証データ2)。

診断精度の高さは、ROC(AUC)と呼ばれる指標で判断した。AUCの数値が高いほど診断精度は高く、0.9〜1.0では高精度、0.7〜0.9では中精度、0.5〜0.7では低精度とされる。

3.結果

訓練データで見た場合、3種類の機械学習のうちRandom Forestから得られた結果が最も診断精度が高く、音声データを含まない属性だけによる診断精度が中精度だったのに対して、音声データを取り入れた場合では、高精度のうつ病診断が可能となることが確認された(図1)。また、訓練データで得られた診断モデルを検証データ1で検証した結果、属性だけによる診断精度が中精度だったのに対して、音声データを取り入れた場合では、高精度のうつ病診断が可能となることが確認された(図2)。

しかし、時点2から2カ月後の時点3のデータ(検証データ2)を活用し、上記の診断モデルを用いて、うつ病の診断や予測を行ったところ、今度は十分な精度が得られなかった。

4.今後に向けて

以上のことから、音声感情認識技術には高い潜在性が示された。この技術は、医療場面だけでなくストレスチェック制度が導入された企業も含めた多様な場面で有効活用できるかもしれないので、今後も研究を進め、実用化に向けた更なる技術の改善を目指すことが望まれる。

図1:訓練データにおける機械学習による診断精度
図1:訓練データにおける機械学習による診断精度
(注)診断精度は、ROC(AUC)の値が0.9-1.0だと高精度、0.7-0.9だと中精度、0.5-0.7だと低精度と判断される。
図2:検証データ1(時点1+時点2:30%)における診断精度
図2:検証データ1(時点1+時点2:30%)における診断精度
参考文献
  • Sado, M., Yamauchi, K., Kawakami, N., Ono, Y., Furukawa, T. A., Tsuchiya, M., ... & Kashima, H. (2011). Cost of depression among adults in Japan in 2005. Psychiatry and clinical neurosciences, 65(5), 442-450.
  • Naylor, C., Parsonage, M., McDaid, D., Knapp, M., Fossey, M., & Galea, A. (2012). Long-term conditions and mental health: the cost of co-morbidities. The King's Fund.