ビッグデータがブームで終わらないために何が必要か

小西 葉子
研究員

2013年はビッグデータ元年

データ、統計調査、統計学というと難しそうで、無機質で時代遅れな印象があったのではないだろうか。しかし、2013年はビッグデータ、統計学、データサイエンティストという言葉が広まり、それらは先進的で華やかな印象を与える言葉になった。多くの人々が「データに明るくならなければ」「統計学を勉強しなければ」と思い、そのニーズを受けビジネス雑誌では特集が組まれ、統計学やデータ分析の実践書が執筆された。ついに日の目を浴びる時がきたと感じた統計関係者も多かったのではないだろうか。ただ、一過性のブームにも見え、他の流行と同じように1年後には誰も興味を示さなくなるのではとの懸念や焦燥感もある。

なぜか? まず従来、調査も統計学も華やかではないからである。華やかに注目されるべきは結果で、その過程であるデータ収集のための調査やデータ構築、統計学を応用した分析はひどく泥臭い作業の連続である。データがビッグになったからといって、何が変わるわけではない。ビッグデータの分析は大きくなった分だけ工程が煩雑になり、大変さは増すかもしれない。次に、正直に言うとビッグデータを前にしたとき、データを活かすために何をすればいいのか、どのような手法の開発が必要なのか未だ明確な答えがないのが現状だからである。

社会・経済活動ベースのビッグデータの特徴

ビッグデータの定義はさまざまだが、一般的には従来のサーバやデータ管理システムで保管できないほど非常に巨大なサイズで、非常に多くの項目について、データの形状も多種多様な形で収集されたものとされる。そのため、分析する際も普及しているソフトウェアでは処理するのが難しいといわれる。われわれの日々の行動がIT技術の発展に支えられて収集・保存が可能となり、企業戦略、新たなシステムやビジネスチャンス創造に活用されている。身近な例では、スーパーマーケットのPOSデータや公共交通機関の乗客の乗降情報があり、保存コストが大きく破棄されていたデータが、取捨選択されることなく全て保存されていく。「取捨選択されることなく」というのが従来のデータと異なる特徴であり、その点についてビッグデータを統計解析する際の留意点を挙げる。

1) 収集時点では、何を分析したいのか、何がわかるのか特定することが難しい
ビッグデータが広く利用可能となると、従来のデータと比較してあまりにもサイズも情報量も豊かで、研究者・分析者ならとにかく早くデータを触って何かを見つけたくなる。しかし、データがあるから分析するという立場で統計解析を始めると、どんなに大きなデータでも必ず途中で足りないものが出てくる。そして多くの場合がデータの制約を理由に強い仮定を置いた分析を行うことになる。

2) 従来の統計調査と比較して、個体認識されていないケースが多い
たとえば首都圏の鉄道の乗降情報はわずか1日でも巨大なデータとなるが、交通ICカードではなく切符を使う乗降客も含めれば個人の情報は付随しない。もちろん、各日の統計指標を時系列方向に比較することは可能だが、乗降客数の予測などに個人の異質性を反映することができない。多くの官庁統計のように個体が認識されれば、個人の異質性に加え、同一個人の時間方向へのデータの蓄積が情報として活用できる。この問題を克服しているのが、ポイントカードを利用して個人属性と紐づける小売業のID-POSデータである。

3) 行動しない場合にはデータに含まれない
上記の例では、データとして収集されるのは鉄道利用客のみである。ビッグデータはそのイベントや行動に参加した結果が蓄積されるので、参加しなかった場合や、同じ行動でも収集対象外となる他の地域や店舗を利用した場合にはデータに含まれない。そのため、統計解析する際にはサンプリングによるバイアスの問題に注意が必要である。この欠損値問題は、従来の統計データでも起きうるが、調査対象の選定や調査票の作成方法によって回避可能である。

経済学が得意なこと

官庁統計は、産業や人々を調査して国の現状を把握して記録を残すためや政策に活用するために集められる。研究者や企業は、自身の関心に沿って調査票を設計しデータ収集を行う。つまり、知りたいことが先にあり、時間や金銭的コストの制約下で目的を達成するために収集される。この点はビッグデータの特徴と対照的であり、経済学ではこれらのデータを利用して実証分析を行ってきた。経済学では、限られたデータやデータ収集の機会を最大限に活かすために、何を知りたいのか、どんな仮説を立てどんなモデルを作ればよいのかに多くの時間を注ぐ。また、個体の特性が経済活動に与える影響を考慮するために、活動データに個体属性が紐づいたパネルデータのための統計手法を開発しており、上記2)のID-POSデータに応用可能である。3)の欠損値問題や人々が意思を持って行動に参加するために生じるサンプルセレクションの問題には、政策評価のための統計手法が有用である。その他にも因果関係の特定や、同時決定的に起きる経済活動のための推定方法など経済事象に則した統計手法が数多く開発されている。

ビッグデータへの期待

これらの知識の蓄積はビッグデータ解析にも貢献できるだろう。また経済学以外の各分野にも、分野ならではの統計理論や手法が数多く存在する。知識の共有や異分野での共同研究が学問の発展に重要であると認識されていても、問題設定、共通言語の摺合せ、方法論の違いなどからなかなか実現されない。一方ビッグデータは、一定レベルの収集・保存技術の開発が進んだ後は、いかに社会の役に立ち価値があるのかを積極的に示す必要がある。今後、さらなる制度整備や技術開発が進み、人々の生活の全てが記録されるライフログと呼ばれるデータ構築が進めば、各学問分野で分析することに限界が生じることが予想される。そこで私は、ビッグデータの存在が統計学という共通言語を介して、長年推奨されてきた分野横断的・学際的な研究の実現に繋がり、新たな理論や統計手法が開発されることを期待する。そしてその成果がビッグデータの価値や評価を高め、分析目的のために必要な情報をより積極的に収集できるようになることを期待する。

2014年1月28日

2014年1月28日掲載