ノンテクニカルサマリー

機械学習手法を用いた企業パフォーマンス予測

執筆者 宮川 大介 (一橋大学)/宮内 悠平 (マサチューセッツ工科大学)/Christian PEREZ (カーネギーメロン大学)
研究プロジェクト 企業金融・企業行動ダイナミクス研究会
ダウンロード/関連リンク

このノンテクニカルサマリーは、分析結果を踏まえつつ、政策的含意を中心に大胆に記述したもので、DP・PDPの一部分ではありません。分析内容の詳細はDP・PDP本文をお読みください。また、ここに述べられている見解は執筆者個人の責任で発表するものであり、所属する組織および(独)経済産業研究所としての見解を示すものではありません。

産業フロンティアプログラム (第四期:2016〜2019年度)
「企業金融・企業行動ダイナミクス研究会」プロジェクト

機械学習手法を用いた近年のビッグデータ分析において「予測」が重要なテーマとなっている。たとえば、地域レベルの犯罪予測、工場における故障予測、気象予報などに、ビッグデータと機械学習のフレームワークが効果的に用いられている。本稿では、170万社に及ぶ企業レベルデータに機械学習手法を用いることで、企業の将来時点におけるパフォーマンス(売上高増加率、退出、利益増加率)の予測を試み、企業パフォーマンスの代理指標として広く参照されている「評点」を大幅に上回る予測精度を実現した。

個々の企業パフォーマンスの将来予測は、銀行の融資判断、実物取引の開始・継続に関する判断、金融市場における投資判断など多くの意思決定に必要である。特に、企業の外形的な特徴(ハード情報)とインタビュー情報など(ソフト情報)を用いて信用調査会社が算定する評点は、企業パフォーマンスを要約する変数として頻繁に参照される。しかし、企業に関して観察可能な無数の情報のうち、どの情報をどういったウェイトで用いるのが企業パフォーマンス予測にとって最適かは必ずしも自明ではない。近年の機械学習手法の発達は、こうした難問に対して、予測変数の選択を含む予測モデルの構築を可能とする。

以下では、本稿の分析結果のうち、売上高伸び率をベースにした企業パフォーマンスの予測結果を紹介する。具体的には、2006年から2011年にかけての売上高伸び率が産業平均+1標準偏差以上の企業(以下では「高パフォーマンス企業」と呼ぶ)を予測対象として、それ以前の時期における信用評点、企業属性、地域・産業属性、サプライチェーンネットワーク変数を予測変数として用いることで、予測モデルのパラメータを推定(トレーニング)した上で、2011年から2014年にかけての高パフォーマンス企業を、2011年時点で入手可能な情報のみを用いて予測した。

結果として、我々のモデルは、2011年から2014年における実際の高パフォーマンス企業のうち25%を正しく予測することが出来た。この数字は、信用評点のみを用いて予測を行った場合に8%まで低下する。ここで注目すべきは、我々が上記の予測を行う際に、2011年時点において信用調査会社が保有しているデータのみを用いているという点である(厳密には信用調査会社が保有しているデータの一部しか我々は利用していない)。我々のモデルにおけるこうした高い予測精度は、予測の対象を利益ベースの企業パフォーマンスや企業の退出に変更した場合でも同様に確認されており、さまざまな企業パフォーマンス予測にビッグデータと機械学習手法を用いることの利点を示唆している。

なお、上記の結果は、将来パフォーマンス予測の基礎指標として予測モデルから得られる推定値について、(例:高パフォーマンス企業として予測されるか否かを選り分けるための)閾値を固定した上で、予測モデルの精度を評価したものである。若干テクニカルになるが、こうした二値変数(例:高パフォーマンス企業か否か)の予測モデルを評価する際は、閾値を変動させた場合の予測精度を評価することが望ましいとされる。下図は、こうした観点から、高パフォーマンス企業を判定するための閾値を変化させた場合に、(1)テストデータ(2011年から2014年)において実際には高パフォーマン企業であるにも関わらず低パフォーマンス企業と予測された企業の割合(False positive rate)を横軸に、テストデータにおいて実際に低パフォーマンス企業であることを正しく予想した割合(True positive rate)を縦軸にプロットしたもの(ROC(Receiver Operating Characteristics)曲線)である。予測が極めて正確に行われていれば、ROC曲線は原点から上方への軌跡を描いた後、座標(0,1)から右方向への軌跡を描くはずである。下図では、評点のみを用いた予測モデルの結果(黒破線)と、当該評点に更にさまざまな変数を加えた変数群から機械学習手法を用いて変数を選択した上で高パフォーマンス企業の予測を行った結果(青実践、赤破線、黄破線)をROC曲線で示している。一見して明らかなように、膨大なデータに機械学習手法を用いた予測が、評点に基づいた素朴な予測を完全に上回っていることが分かる。

図:予測パフォーマンスの比較(売上高伸び率ベース)
図:予測パフォーマンスの比較(売上高伸び率ベース)

企業パフォーマンスの予測は、金融機関におけるリスク管理や企業による取引先のスクリーニングにおいて重要な情報をもたらすだけではなく、さまざまな政策運営をpreemptiveに(換言すれば、「備えあれば憂いなし」の視点から)行うためにも活用されるべきものである。本稿で提案した予測フレームワークをより大規模なデータに応用することで、予測精度に関する一層の改善を図ることが期待される。