RIETI - 人工知能の未来－ディープラーニングの先にあるもの

開催日	2015年6月3日
スピーカー	松尾豊 (東京大学准教授)
モデレータ	松田尚子 (RIETI研究員（非常勤）/東京大学政策ビジョン研究センター助教)
ダウンロード/関連リンク	プレゼンテーション資料 [PDF:5.9MB]
開催案内/講演概要	本講演では、人工知能の最新動向、特にディープラーニングを取り巻く状況について述べる。人工知能の歴史を紐解きながら、ディープラーニングのもつ意義を解説し、今後の研究の進展について概観する。また、こういった人工知能の変化が、今後、どのように社会や産業を変えるのか、人工知能の未来について解説する。

議事録

ディープラーニング関連の海外企業の投資

松尾豊写真「ディープラーニング」は、AI（人工知能）における50年来のブレークスルーといえるでしょう。データをもとに「何を表現すべきか」が自動的に獲得されている人工知能技術として、ディープラーニングはMITの「10ブレークスルーテクノロジー2013」の筆頭に挙げられています。日本で最初に紹介されたのも2013年ですから、この1、2年で注目を集めている技術といえます。

海外企業の投資も相次いでおり、Googleは2014年にDeep Mind Technologiesを4億ドル（約420億円）で買収。中国検索最大手のBaiduは2013年、シリコンバレーにディープラーニングの研究所を作り、スタンフォード大学のAndrew Ng教授を所長に迎えて300億円の研究予算を投資しています。

Facebookは2013年に人工知能研究所を設立し、ニューヨーク大学のYann LeCun教授を所長に招きました。さらに、ちょうど今日、パリ人工知能研究所（フランス）が開設されたということです。私も参加したDeep Learning workshop（2013）では、同社のザッカーバーグCEOをはじめベンジオ教授（モントリオール大学）、マニング教授（スタンフォード大学）など、そうそうたる顔ぶれによるパネルディスカッションが行われました。

人工知能ってなぜできないのでしょうか

基本的に脳は、認識・思考・行動する際の神経系を伝わる電気信号であることが、よく知られています。比較的長時間かけての生体的な反応と考えると、何らかの情報処理が行われていると考えられますが、情報処理であるならば、プログラムで実現できるはずです。

そう考えると、人間の脳がやっていることを、なぜコンピュータでできないのか。結構不思議なことなので、それを「霊感」だという人もいます。ロジャー・ペンローズという物理学者は、脳の中に微小な管があって、そこに量子現象が発生して「意識」が宿るのだと主張しています。しかし、科学的かつ合理的な普通の人なら、できない理由は特にないと思うわけです。

では、すでに人工知能の研究が60年ほど続けられているにもかかわらず、いまだに人間の知能をコンピュータで実現できないのは、なぜなのでしょうか。実は今、その状況が変わりつつあります。

人工知能の全体像

人工知能は今、第3次AIブーム（2013年～）を迎えています。第1次AIブーム（1956～1960年代）では、1956年にダートマスワークショップが開催され、初めて人工知能（Artificial Intelligence）という言葉ができました。世界初のコンピュータENIACが1946年に発表されてから、わずか10年後のことです。

この第1次AIブームでは、探索・推論が中心となりました。探索・推論問題として、うまく記述すれば解けるのですが、それができなければ解けません。現実的な問題が解けなかったために人々は落胆し、1970年以降、AIに冬の時代が訪れます。

第2次AIブームは、知識処理の時代です。コンピュータに知識を入れれば賢くなるという考え方に基づき、日本では政府の第5世代コンピュータプロジェクト（1981年）に570億円が投入されました。

人とコンピュータの対話システムであるELIZA（イライザ）が、すでに1964年に完成していたことは驚くべきことです。たとえば、人が"My head hurts"とタイプすると、コンピュータは"Why do you say your head hurts?"と返事をします。また、"My mother hates me"と入力すると、コンピュータは"Who else hates you?"と答えるのです。

1976年の記事によれば、人々はすぐにそのコンピュータプログラムに感情的に没頭し、対話の記録を見ようとすると「プライバシーの侵害だ」といって拒まれることや、「対話中は部屋に一人きりにしてくれ」と頼むようなこともあったようです。この対話システムの発展系が現在のSiri（シリ）です。コンピュータが賢いというよりは、人間側がなぜか賢いと思ってしまうところが、すごく面白いと思います。

MYCIN（マイシン）は、スタンフォード大学で1970年代初めに5、6年の歳月をかけて開発されたエキスパートシステムです。このシステムは伝染性の血液疾患を診断し、抗生物質を推奨するようにデザインされており、500のルールに基づいて細菌の名前を割り出すことができます。少なくとも研修医よりは高い精度といわれており、そのレベルのものが1970年にはできているわけです。

ところが、その精度をさらに上げようとすると、たとえば患者が「お腹が痛い」と言った場合、「お腹とは何か」という情報が必要になります。人間には手や足、お腹があり、人間は哺乳類で、哺乳類は動物という当たり前の知識を入れておかないと、「お腹が痛い」がわからないわけです。

このように、当たり前の知識をコンピュータに入れていくことが、実はすごく難しいということがわかってきました。米国のベンチャーによるCyc（サイク）は、一般常識をデータベース（知識ベース）化し、人間と同等の推論システムを構築することを目的とするプロジェクトですが、1984年から始めて30年近く経った今でも、まだデータを書き終えていません。

このような難しさがわかってくると、1990年にはオントロジーという研究が行われるようになりました。概念間の関係は、is-a関係（上位・下位）、part-of関係（全体・部分）の2つを使う場合が多いのですが、part-of関係に推移律が成立するかどうかは、難しい問題です。

たとえば31号講義室がpart-of3号館で、3号館がpart-of東京大学の場合、31号講義室はpart-of東京大学となり、推移律が成り立っているように見えます。ところが親指がpart-of山田太郎で、山田太郎がpart-of取締役会である場合、親指がpart-of取締役会なのかというと、そうではありません。

part-of関係にはいろいろあって、車輪はpart-of自転車で、自転車は車輪をとられると自転車ではなくなりますが、車輪は車輪のままです。また、夫はpart-of夫婦で、夫婦から夫を除くと夫婦ではなくなり、夫は夫ではなくなり、妻も妻ではなくなります。このように、part-of関係は細分化していることがわかってきました。しかし私たちは、こうしたことを意識して生活しているわけではないため、それをコンピュータに明示的に教えることは、すごく難しいのです。

2006年にIBMが開発した質問応答システムWatson（ワトソン）は、2011年1月に米国のクイズ番組「Jeopardyジェパディ!」で人間のクイズ王に勝利しました。現在、日本でもいろいろな企業が使い始めていますが、Watsonは必ずしも文章の意味を理解しているわけでなく、ライトウェイトのオントロジーをうまく使うことで、より的確に早くクイズに答えることを可能としています。

人間は、無意識のうちに常識や知識に基づいて総合的に判断し、文章の意味を理解しているため、コンピュータによる機械翻訳は、「知識獲得のボトルネック」といわれる問題をまだクリアできていません。フレーム問題（Dennett 1984年）やシンボルグラウンディング問題（Harnard 1990年）などが有名です。シンボルグラウンディング問題とは、「馬」と「シマ」の意味をわかっている人が「シマウマ＝馬＋シマ」と教えられれば、シマウマを一目見た瞬間、シマウマだとわかるものですが、コンピュータにはそれができないということです。

第2次AIブームは、知識を書けば賢くなるといっても、一定以上を書き切るのはほぼ不可能なため、方向性として間違っているのではないかと失望感が広がり収束しました。1995年以降、AIは再び冬の時代を迎えることになります。

こうした歴史を経て、現在の第3次AIブーム（機械学習、表現学習の時代）があります。その背景にはビッグデータやウェブの広がりがあり、大量のデータを用いた機械学習（Machine learning）がどんどん実用化されるようになりました。機械学習は、人工知能における研究課題の1つで、人間が自然に行っている学習能力と同様の機能をコンピュータで実現しようとする技術・手法です。教師データをもとに自動的に分類すること、つまり「分ける」ことが学習の根幹となっています。

機械学習にもいろいろありますが、ここ15年ほどは、サポートベクターマシン（余白が最大になるように線を引くのがよい）がよく使われていました。一方、ディープラーニングはニューラルネットワーク（人間の脳神経回路を模擬したネットワークにより線を引く）の一種です。

このニューラルネットワークで、よく題材として挙げられるのがMNIST（エムニスト：手書き文字の認識）です。ニューラルネットワークを1つの組織と考えたとき、組織としての判断が当たったときは、正しい判断を言った部下とのつながりを強め、判断が間違えたときは、間違った判断を言った部下とのつながりを弱めます。これを何度も繰り返すと、組織全体で正しい判断ができる確率が上がっていきます。画像や正解の教師データをたくさん与え、重みを一旦学習すれば、手書きの数字などをすぐに答えられるようになります。

機械学習における難しさとして、素性の設計（Feature engineering）があります。素性（機械学習の入力に使う変数、対象の特徴を表す特徴量）によって予測精度が大きく変化するため、素性に何を使うかによって、モデルのよさがほぼ決まるといえます。

これまでの人工知能の壁≒表現の獲得の壁

人工知能が直面する問題はすべて、現実世界から解くべき問題の「表現」を獲得するところに起因しています。ある領域の知識をどのように記述するのか、ある経済現象をとらえる際に何を変数に設定するのかなど、最初の問題設定は、コンピュータでなく人間によるものです。つまり、よい「特徴量」とそれによって定義される「概念」を作るという重要な部分を、人間がやるしかないという壁が存在しています。

ソシュールという言語哲学者は、シニフィエ（概念/意味されるもの）、シニフィアン（語/意味するもの）が一体となって運用されることで、人は言葉を理解するとしています。これまでのAIはシニフィアンだけだったのですが、データを元に何に注目すべきかを抜き出すことでシニフィエを精製し、意味するものと意味されるものを一体的に運用することが今後重要となります。

ディープラーニングの主要な構成要素であるAuto-encoder(2006年)は、出力を入力とまったく同じにしたニューラルネットワークです。画像をたくさん学習させることで、上の層のノードでは人の顔や猫の顔が勝手に表れます。これは人間の赤ちゃんが0～2歳にやっていることと非常に近いと思います。

実際、このディープラーニングは、ILSVRC2012（Large Scale Visual Recognition Challenge 2012）などのコンペティションで圧勝しました。ディープラーニングは、これまでの「表現」を獲得できないという壁を突破しつつあるのです。これまでできなかった理由が解消されるならば、やはりAIは可能だと思っていいのではないか。それが今の状況だと思います。

ディープラーニングの今後の研究

ただし研究として、やるべきことはたくさんあります。たとえば、ディープラーニングが画像から特徴量を取り出す能力はすでに人間を超えていますが、動画や音声はまだ難しい状況です。また、動物は自分が世界に働きかけて行動し、その結果を観測しているわけですが、たとえばコンピュータに「ドアを開ける」ということを認識させるには、行為（自分の行動に関するデータ）と帰結（観測したデータ）の両方をセットで抽象化する必要があります。現在、主戦場となっているこの辺りの技術を最初に発表した企業をGoogleは4億ドルで買収しました。

その先は、まだこれからの戦いです。コップを何度も落として割ってしまい、「割れやすい」ということを学ぶことも必要です。つまり行為を介して、物事の特徴量を学んでいくというフェーズです。さらに人間の場合、それを言葉と結びつけ、いつでも想起することができます。こういった高次特徴の言語によるバインディングは、言語理解、自動翻訳の精度向上につながります。

バインディングされた言語データの大量入力によって、更なる抽象化、知識獲得、高次社会予測が可能となります。これまでのAI研究は表現獲得の山を越えることができませんでしたが、それをディープラーニングは越えている可能性があります。

産業へのインパクト

今後、画像認識の精度が上がれば、コンピュータがレントゲン画像を診断した方が正確になるかもしれません。防犯・監視では、感情理解・行動予測・環境認識といったマルチモーダルな認識によって、監視カメラで怪しい人をすぐに見つけることができます。行動とプランニングによって、自動運転や農業の自動化も可能になります。行動による抽象化では、家事・介護分野で「痛くないように持ち上げる」といったことができるかもしれません。言語との紐づけによって、翻訳や海外向けEコマースも簡便になります。さらに、蓄積した言語知識の計算機による獲得によって、教育や秘書、ホワイトカラー支援全般への応用が考えられます。

世界にはAIベンチャーが2000社あり、さまざまな産業が変わっていく可能性があります。10年後には消えそうな職業など、AIの進展で職業がどのように変わるのかという議論も行われています。

人間のための人工知能である：人工知能のサブシステム性

そもそも人工知能は、人間の社会における「サブシステム性」を内在すると考えられます。「目的」を定めれば、人工知能がその目的にしたがって特徴量を見つけ出し、うまい方法を考えられるということです。「目的」自体は人間が与えないといけないため、人工知能が何らかの目的を自発的に持ち始め、人間を征服するといったことは起こりません。

こうした「目的」は、本来的には自己保存や自己複製という生物の生来の目的からのみ規定されるものです。一方、進化の過程を経ていないコンピュータが、こうした本能を持つことはなく、仮に持たせたとしてもロバストではないわけです。つまり人工知能は、人間の社会におけるサブシステムにしか、なり得ないでしょう。

人間は人間といる方が楽しいものですし、人間がどういう目的や価値観を設定するかという議論は大切です。共感、交渉、合意といった「人間的な」部分は、人間の仕事において非常に大事になってくると思います。逆に「機械的」な作業を、人間は今でもかなりやっています。たとえば、ラインでの目視での確認、長時間にわたるトラックの運転、テロリストの警備などが挙げられるわけですが、こうした機械的な仕事から、より人間的な仕事へのシフトがどんどん進むことが予想されます。

おわりに：日本の未来へ

人工知能は、ちょうど1995年のインターネットと同じような状況にあります。すでに技術としてのブレークスルーがあり、連続的な発展がどんどん積み重なっていくことでしょう。ところが、まだGoogleのようなキープレーヤーや、AmazonやFacebookのようなプラットフォームは出現していません。しかし、検索エンジンがインターネットで重要な役割を担っているように、同じようなことが人工知能でも起こるはずだと思っています。

その技術を生み出すためには、これから産業構造がどのように変化し、競争力がどのように変わっていくのかを、きちんと見極めていくことが重要です。それは、日本が産業競争力を維持・向上させていく上で、本質的な課題といえるでしょう。社会全体で人工知能の議論を加速化し、日本が遅れをとることなく、よい社会をつくっていけることを願っています。

質疑応答

Q：

世界の学術研究分野および産業分野において、日本のポジションはどういう状況でしょうか。また日本が遅れをとらないために、どのような政策が必要とお考えですか。

A：

日本の場合、GoogleやFacebookのように、機械学習の精度を上げることで膨大な利益がすぐに返ってくる企業が少ないために投資が弱く、産業的には不利な状況にあると思います。しかし自動運転や農業といった現場のデータを持っていますし、とくに日本は、画像認識を生かせる分野が多いと思います。企業がうまくコンソーシアムをつくっていけば、投資に対する正当性も高まることでしょう。

学術面では、日本に人工知能研究者は多いのですが、手足となる若いIT技術者が圧倒的に少ないため、育成していく必要があると思います。やり方次第では、勝ち目は大きいはずです。人工知能は真面目な学問で、数理的な理解が求められますし、パラメータをこつこつチューニングして精度を上げていく必要もありますので、日本の製造業の技術者が持つ特性にすごく合っていると思っています。人工知能はアルゴリズムのため、国際的な言語の壁もありません。日本は、インターネットで世界に遅れをとったことを引きずって弱気になる必要はなく、きちんとやれば本当に勝てると思っています。

政策面では、インターネットの時のように後手後手にまわるのではなく、かなり早い段階から社会システムの変化を見越した計画を積極的に出し、合意を得ておくべきだと思います。やはり産業構造の変化を的確に見抜き、手を打っていくことが一番重要です。今ほど産業構造の変化が劇的に起こり、先を見極めることが重要な時期は稀だと感じています。

Q：

今後、人工知能プロジェクトといわずとも、自動運転や農業といった分野において分散型で積み上げていくアプローチもあり得ると思いました。参考として、第5世代コンピュータプロジェクトは、どのような効果をもたらしたとお考えでしょうか。