ビッグデータが迫る研究開発の変革

開催日 2012年5月14日
スピーカー 樋口 知之 (統計数理研究所所長 / 情報・システム研究機構理事)
モデレータ 山城 宗久 (RIETI総務ディレクター)
ダウンロード/関連リンク
開催案内

最先端の研究開発現場からビジネスまでのありとあらゆる場面で大きな変革―第四のパラダイムと呼称されることが多い―が起きつつある。それは、この一、二年"ビッグデータ"と総称される、質的に極めて多様で膨大な量のデータ群を有効利用することにより、地球から人間にいたるまで様々な対象をモデル化し、目的に応じた、より良い予測情報やサービスを提供する研究開発手段の台頭である。ビッグデータの取扱に必須の基幹的な科学技術は、巨大データベースに関わる工学領域をはじめとして、統計科学、数理工学、機械学習、データマイニングといった、日本では人材が量的に不足している研究分野で生まれている。

このBBLセミナーでは、ビッグデータを取りまく日米の現状を概説するとともに、ビッグデータの利活用を阻む日本独自の問題点について論じてみたい。

議事録

現在のデータ環境

樋口 知之写真昨今、データを取り巻く環境が激変しています。以前はデータの質・量ともに不足しており、地球・生命・社会という対象から、幅広く、過度な情報集約をせざるを得ませんでした。専門家は少ないデータに対して色々な知識を複合的に使用することで、知識発見や予測・制御能力の向上を行ってきました。現在はデータが土砂降りの雨のように降り注いでいる状態であり、その中で知識発見や予測・制御能力の向上を達成していかなければなりません。このような情報を凝縮しない状態を、私は「中抜き情報処理」と呼んでいます。

ビッグデータのスケール感を実際に掴んでいただくために、人生をハードディスクに埋め込むという例を考えてみましょう。自分の目に前いる人物等の写真を10分毎に1枚撮るとし、その人の人生は80年だったとします。1枚5MBの写真を10分毎に80年撮るとすると、合計は20TBになります。現在、2TBのハードディスクは1万円程度で買えます。つまり、個人の人生が10万円で記録・格納できるという時代がきているということなのです。

ビッグデータとは

ビッグデータというのはバズワードですから、さまざまな所で使われています。しかし、「とにかく大きい」という以外に、特に定義はないのです。ただ、気象、ゲノム、ソーシャル系など、ありとあらゆる場所でビッグデータを使った課題が待っています。データの源としてはインターネット上のデータを思い浮かべてしまいがちですが、それ以外の場所でのデータがどんどん増えており、それらのデータもビッグデータなのです。つまりインターネット・コンテンツ等は氷山の一角であり、その水面下ではサーベイランスやセキュリティ、開発関連等を始め、あらゆる分野で莫大な量のデータが生み出されているのです。

ビッグデータへの対応

現在、データの格納と処理はほぼ同じスケールと加速度で進んでいますが、データの産出についてはこれらを凌駕する圧倒的なスピードで進んでいます。では、ビッグデータからどんどんでてくるデータに、どのように対応すべきなのでしょうか。

ビッグデータとは、そのままでは単なるゴミの山のようなものであり、分別や整理などの手間ひまをかける必要があります。そのため、データマイニングやデータ解析に対して懐疑的な態度を示す人や、マイニングを錬金術師ではないかと形容する人もいます。

また、日本人にはこのような「ゴミの山」の中から機械で何かを取り出すことを嫌う傾向があり、その点でエキスパートへの過度な依存が見られます。しかし、産業人口の変化とともに、これまで育てられてきたエキスパートの知識や経験を、どのように後世に伝えていくのかを真剣に考える必要がでてきました。エキスパートに依存しながらも、知識と経験の伝達を効率よく進めていく手法を探ることが重要なのではないかと思います。

ビッグデータと創薬のかかわり

創薬分野では、1つの商品を作るのに莫大な費用と時間が必要となります。欧米の製薬企業は、化合物を作るという薬開発の最終段階や実験などの外注できる部分とそうでない部分を切り離し、統計科学や機械学習の部分に、より大きな力を注いでいます。そうすることで、過去のデータや患者のレスポンスをビッグデータとして蓄積し、薬開発につながる有効なデータを絞り込んでいくことが可能になります。

ビッグデータと個人化サービス

このように、産業におけるビッグデータの活用は重要になりつつありますが、製品やサービスの提供においては、個人・個性・個別・固有という「コ」の視点が大切なことも忘れてはなりません。従来の大量生産から、個人化されたさまざまな情報サービスやモノ、状況に合った商品やサービスの提供へと移行しています。ただ、これらの作業を人間が担当していてはコストに見合いません。産業でのビッグデータの認識に加え、今後は富を生む仕組みとしての個人化サービスを、コスト面を意識して遂行できるようになるシステム開発の需要性が指摘できます。

これらの状況を受け、日本も欧米とともに研究開発を進めてきました。アメリカでは、「サイバー技術による発見・イノベーション(CDI Project)」というプロジェクトが2007年に始まりました。米国科学財団(NSF)を中心として行われ、初年度には50ミリオンドル(約50億円)、最終年には250ミリオンドル(約250億円)が注ぎ込まれました。日本では、実は早い段階から独自の対応が行われてはいたのですが、残念ながらニーズとシーズが一致しませんでした。

第4のパラダイム

2009年、トニー・ヘイらが編集・執筆した「フォースパラダイム(第4のパラダイム)」という書籍が、マイクロソフトより出版されました。その中には、ビッグデータを使った今後の可能性と変革に関する内容が、科学分野にフォーカスしながら書かれています。以前は経験で行っていた研究の進め方が理論も併用されるようになり、さらにはコンピュータ計算を重点的に利用するアプローチも登場してきました。そして今やデータが爆発したために、データ・セントリック・サイエンス(データ中心科学)やデータ・インテンシブ・サイエンス(データ集約的科学)が重要になっています。

車でたとえますと、まず左後輪を理論、右後輪を実験として、この2つが科学の駆動力の役割を果たしているというイメージを描けます。前輪は左がシミュレーション、右が大量データ処理(ビッグデータの解析)となっており、この2つをつなぐものがデータ同化となります。この図では左側(理論とシュミレーション)が演繹的な推論になります。演繹的とは、基本原理が与えられたならば、そこから前向き(フォーワード)に計算ができていくということです。つまり、順問題の解法が左側になります。一方、右側(実験と大量データ処理)はバックワード計算、つまり帰納法的推論になります。現在のデータに基づき過去や原因に遡る、いわゆる逆推論です。右前輪の登場が第4のパラダイムになります。実際には、右側と左側を上手く組み合わせていくことが非常に重要となります。

ビジネスにおけるビッグデータの活用

第4のパラダイムでは、科学におけるビッグデータの活用が重要だと話しましたが、ビジネスにおいては昨年の6月に、MGI(McKinsey Global Institute)レポートというものがでています。このレポートの内容はビジネスに比重をおいており、あらゆる場面でビッグデータを活用したものが今後の富を築く、という内容が見られます。

この点にいち早く注目しているのがIBMです。IBMはスマータープラネット(賢い地球)というビジョンを提唱し、予算・人材両面でビッグデータへの大きな投入を行っています。SPSSという長年解析ソフトを作ってきたデータ解析会社も買収しました。またNTTデータも、この分野の最適化にて良い製品を送りだしている数理システムを今年買収しています。このような情報系の大企業による統計処理会社の買収は、ここ1-2年の大きな動きとして現れています。

また、2012年の3月29日、ビッグデータを後押しするための200ミリオンドルの投入が、オバマ大統領よりアナウンスされました。同時期にはシンポジウムも開催され、政府関係機関、軍、エネルギー、ヘルスサイエンス、地球宇宙関係など、ビッグデータに関る機関が一同に会しました。このように、アメリカではビッグデータの活用開発推進に関するアナウンスを大々的に行っているのです。

帰納的アプローチと演繹的アプローチ

複雑なシステムを理解するときには、前向き推論といわれるものと、逆推論の2つを上手く組み合わせることが必要です。しかし日本では、演繹的推論である順問題(フォワード問題)を好む傾向があります。

たとえば、ロジックで1番優れた方々は論理学者と呼ばれています。論理学者から見ると数学者には厳密性が足りません。数学者からすると物理学者はいい加減ということになり、その物理学者に言わせると、技術者こそいい加減だということになるのです。この話の落ちは演繹論者のほうが優れているということではなく、我々は経験から知識を紡ぎだし活かしており、このリアルな世界に生きる力というものは、帰納法でかなり支えられているのだということです。これは帰納と演繹双方の良い点をミックスする重要性を示唆しています。

ベイズの定理

帰納法には、データのない領域での説明力や長期予測能力が弱いという弱点があります。この弱点を克服できるのが演繹法です。つまり、問題によって演繹と帰納を上手く使い分ける、もしくはミックスさせるということが重要になります。

この帰納と演繹のミックスにおいて、ベイズの定理が大きな役割を果たしています。この定理が現在の計算サービスのありとあらゆる場面で使われているのです。センサーの日用品化やコンピュータの性能向上、ストレージの廉価化などが重なり、ようやくベイズの定理を使った推論が安価で気軽にできるようになったのです。またベイズの定理というのはアルゴリム上、情報循環構造を持っています。前のデータが入ることによって、手持ちの情報がより確かな情報に転換されます。

ビッグデータをとりまく日本独自の問題

日本では統計学科は統計数理研究所にしかありません。統計学だけが重要だと言っているわけではありませんが、ビッグデータを支えるテクノロジー、統計数理、あるいは機械学習等の部分の統計を担うためには、それが必要なのです。OECD諸国で統計学科を保持しないという状況に陥っているのは日本だけです。これは要するに、データリテラシーが低く、データ分析のエキスパートが少ないことを示唆しています。今後、ビジネスモデルと一体化したモノ作りで、現地のデータを採りながら製品開発をしていくということが重要にもかかわらず、日本にはデータ解析のエキスパートが少なくいことが日本経済のアキレス腱になることを恐れています。

最後に2つ問題を提起します。1つ目は人材育成です。日本はもともとビッグデータに関する意識は高く持っていたのですが、人材育成が上手くいっていないために、現在は激しい人材争奪戦が起こっています。顕著なのは自然言語やゲームの関連ですが、高給で次々に人が引き抜かれています。2つ目は法体系整備とプライバシーに関わり、ビッグデータの活用を個人情報の保護とどう調整していくのかという点が問題になります。

質疑応答

Q:

公的統計とビッグデータについて、役割の棲み分けや、お互いをどのように活用・リンクさせていくかについてご教示ください。

A:

公的統計に関しては統計法の改正がありまして、二次利用では一定の規則を守れば利用できるような形になってきています。そういうものと出回っているデータを結びつける方法のポイントは、信頼性をどのように担保していくかという問題と関っています。ここで核となる技術がリンケージ技術です。ただ、信頼性の担保の問題はまだ難しいところが多く、多種多様なデータがある中で、どれとどれを結び合わせてどのように担保していくのかという、キュレーションができる人材(データキュレーター)を育てていかなくてはいけないと思っております。

Q:

今後ビッグデータに関連し産業界が採るべき方法・方向について、アドバイスをお願いします。

A:

先に触れましたが、日本にはエキスパートに過度に期待する傾向があり、迅速な知識・経験の伝達ができていないことが問題となっています。これはたとえば、企業が世界的に優れた製品を作り出していた場合、その評価をエキスパートの判断で1つずつルールベースで定義していくのではなく、機械学習を使って自動的にエキスパートの聴力、視覚、味覚等を近似的に実現することで解決できます。もう1点は、従来の抜き取り検査から全検査への移行が必要とされるだろうということです。人間のマニュアル作業では時間やコストの面で見合いませんので、ここでも統計数理を使ったマシンにより、人間の五感や六感をコンピュータで置き換えていくという作業が必要になります。つまり、エキスパートの力の活用方法と、品質管理での全検査時代に向けての対応方法という2点が、企業にとって重要だと思います。

Q:

日本人は統計リテラシーの分野で遅れを取っていますが、国民が論理的な思考を持てるような草の根的な教育を行うということと、産業界のニーズに合った高度な専門的統計学者を提供していくということについて、統計数理研究所の今後もしくは現在の取り組みをお聞かせください。

A:

まずデータリテラシーに関してですが、来年から学術指導要綱が変わり、小学校から高校まで統計を勉強することになります。これは文部科学省の認識を反映しているものだといえます。ただ、欧米の大学等では、教養過程で徹底的にデータリテラシーを教えます。より良い生活をするためには、生活の中のデータを読む力、データリテラシーを高めることが重要だという教育を、1年の時から行っているのです。また、日本では人口の減少や経費削減等に伴いポスドクの安定的就職口となるパーマネントのポジションが減少しつつあります。研究開発のポテンシャルのある方々の能力を活用する場面において、ニーズとシーズのマッチングができていないのです。そこで統計数理研究所では、「統計的に思考できる人材育成」という目的を掲げ、統計思考院を設けました。そこにポスドク、企業の研究員等を受け入れ、横断的な学問を身につけてもらうことで、R&Dにもつながる人材育成を行っていきたいと考えています。

この議事録はRIETI編集部の責任でまとめたものです。