ノンテクニカルサマリー

頑健で安定な政策学習に向けて:SONYにおける実装

執筆者 成田 悠輔(客員研究員)/齋藤 優太(Cornell University)/宇田川 拓麻(ソニーグループ株式会社)/清原 明加(東京工業大学)/茂木 一輝(Stanford University)/舘野 啓(ソニーグループ株式会社)
ダウンロード/関連リンク

このノンテクニカルサマリーは、分析結果を踏まえつつ、政策的含意を中心に大胆に記述したもので、DP・PDPの一部分ではありません。分析内容の詳細はDP・PDP本文をお読みください。また、ここに述べられている見解は執筆者個人の責任で発表するものであり、所属する組織および(独)経済産業研究所としての見解を示すものではありません。

その他特別な研究成果(所属プロジェクトなし)

機械学習アルゴリズムによる予測や分類を用いた意思決定がデジタル世界を覆っている。例えば、Amazon、Facebook、Google、Microsoft、Netflixをはじめとするウェブ企業。彼らは、表示するコンテンツ(映画、音楽、ニュース等)や広告の選択、価格や検索結果順位の決定といった問題に、機械学習を応用している。UberやLyft、DiDiといった自動車共有サービスの価格は、各時点・場所における需要と供給の情報をもとに、独自のアルゴリズムによって決定されている。

機械学習アルゴリズムを利用した意思決定は、デジタル世界以外でも爆増している。裁判や保釈判決がその例だ。米国企業Northpointe(現Equivant)が開発したソフトウェアCOMPASは、教師あり機械学習を用いて被告人の再犯確率を予測する。COMPASの予測した再犯確率は、米国の多くの裁判官の判断材料として実際に利用されている。その他、機械学習アルゴリズムを用いた人事採用システムも登場している。

アルゴリズムによる意思決定を実運用する上で重要になる問題がある。まだ使われたことのない新しい意思決定アルゴリズムの性能を予測・推定することだ。事前にアルゴリズムの性能を正確に予測できれば、フタを開けてみたら大失敗という悲劇の確率を減らすことができるし、アルゴリズムの着実な改善に資する。

そのような性能予測の方法が、オフ政策評価(Off-Policy Evaluation; OPE)である。オフ政策評価は、過去のアルゴリズムが蓄積したデータを用いて、別の新たなアルゴリズムの性能推定を行う方法だ。オフ政策評価にはいくつもの変種(推定方法)が存在する。どの推定手法が望ましいかは、データを集めた過去のアルゴリズムの性質やデータの大きさなどの実験条件に応じて決まることが理論解析や実験結果から示唆されている。そのため、場面に応じて最も性能の高いオフ政策評価の推定手法を選ぶことが大事になってくる。

私たちは、新たなアルゴリズムの性能を推定する様々な手法の精度や安定性を比較評価するための手法を提案する。私たちの評価手法では、推定誤差が大きくなる確率やその誤差の大きさに関する分析が行える。具体的には、提案手法では様々なアルゴリズムや実験条件の組み合わせに対する推定精度のばらつきを分布として評価する。その結果、分析者はアルゴリズムの性能推定手法の正確さを比較することができる(図1)。これに対し、従来の手法ではあらかじめ決められた単一のアルゴリズムや実験条件に対する各性能推定手法の平均的な推定精度のみを比較していた。したがって、従来の評価手法と比べ私たちの手法ではより詳しい手法比較が可能になる。

この手法が使える場面は、ビジネスから政策まで幅広い。具体的な応用として、私たちが行ったSonyでの活用事例を紹介する。Sonyでは電子書籍事業におけるクーポン配布アルゴリズムの改善のため、過去のアルゴリズムにより収集されたデータを使って新たなアルゴリズムの性能評価を行いたいという欲求があった。しかし、Sonyのデータ分析者は複数の性能推定手法の内どれを使えばより正確に性能推定が行えるか分からなかった。私たちは提案手法をSonyのデータに適用し、より信頼性の高い性能推定手法を突きとめた(図2)。現在では、Sonyは継続的なアルゴリズム改善のために、私たちが特定した推定量を使用している。さらに、私たちは提案手法による実験手順を実装したコードをオープンソースでGitHub上で公開しており、提案手法は誰でも容易に利用可能である。

最後に、私たちの目標は、今はウェブ産業に集中しているデータとアルゴリズムの価値をより広い社会に還流することだ。そのビジョンに向け、同じ技術を用いて様々な公共政策領域の評価・設計・予測も行えるようにしていきたいと考えている。

図1:提案手法による推定手法の精度比較の例
図1:提案手法による推定手法の精度比較の例
性能推定手法であるInverse Probability Weighting(IPW, ピンク)とDirect Method(DM, オレンジ)を比較した図。アルゴリズムの真の性能と推定手法による性能推定量の差分の二乗誤差がx軸で示される値よりも小さくなる確率をy軸の累積確率分布を用いて表している。曲線が左上に位置するほど性能推定の精度が良く、右下に位置するほど精度が悪い。この図の例では、IPWとDMではIPWの方が性能が良く、特に性能推定が失敗しているケースでの性能がIPWの方が良いことが分かる。
図2:Sonyのデータにおける性能推定手法の比較結果
図2:Sonyのデータにおける性能推定手法の比較結果
Sonyのデータにおいては、左上に位置するself-normalized IPW(SNIPW)と呼ばれる性能推定手法が最も正確な信頼性の高いことが分かる。実験結果を基に、Sonyでは現在SNIPWをアルゴリズムの性能推定手法として採用している。