ビッグデータは公的統計を変えられるのか:海外先進事例に学ぶ

開催日 2019年3月14日
スピーカー 小西 葉子 (RIETI上席研究員)
モデレータ 迎 堅太郎 (経済産業省大臣官房調査統計グループ政策企画委員)
ダウンロード/関連リンク
開催案内/講演概要

近年のビッグデータ、人工知能(AI)、IoT技術の普及の結果、大量のデータとテクノロジーが揃ったことにより、統計調査への適用に関心が高まっている。統計調査のコスト削減への対応として、収集方法にテクノロジーが活かせるとしたら、また民間ビッグデータや行政記録情報を統計指標作成に活かせたら、統計調査の遂行や精度向上にどれほどの利点があるだろうか。本報告では、経済産業省の平成30年度ビッグデータプロジェクトで行った海外調査よりイギリス、オランダ、シンガポールの先進事例を紹介するとともに、経済産業省で近年取り組んでいる民間データの公的統計への活用の可能性や課題について議論した。

議事録

序論

小西葉子写真今日は、2018年来からニュース等でも話題になっている公的統計について、ビッグデータやAI関連の技術の活用がもたらす良い影響や今後の展望についての明るい話をしたいと思います。内容は、私が座長を務めております「経済産業省平成30年度ビッグデータを活用した商業動態統計調査の実施・結果検証及び新指標開発事業」で行った海外調査報告によるビッグデータ活用先進国の取り組みと、経済産業省の新指標開発事業の成果の一部をご紹介します。

ビッグデータ、AI、統計学ブームの追い風

まず、近年の公的統計への関心の高まりを理解するためにその周辺についてご説明します。AI研究の歴史は古く1950年代から行われていますが、理論やアルゴリズムができても、実装する計算機(コンピュータ)の開発が追い付かなかったり、計算能力は向上しても、実証するためのデータ量が不足していたりという流れが2010年代初旬まで続いていました。統計学の手法の1つの機械学習も、1990年代から盛んになっていますが、やはり当時はビッグデータと呼べるほどの十分な規模のデータがないために現在のようなブームは起きませんでした。しかし、その間にディープラーニング等、現在のAIブームを支える研究開発が進められてきました。2012 年にディープラーニング技術が画像認識コンテストで優勝したことを契機に、世界中でAIへの注目度が高まり、わが国でも 2013 年以降、第三次AIブームが起きています。このAIブームは 2012 年のビッグデータブームと重なり、その勢いは加速しています。

AI、機械学習、ビッグデータの3者のブームが噛み合わない状態がかなり長く続きましたが、2012年以降はそれらの歯車がかみ合って動き出し、この流れに乗って、統計学への関心も高まっています。データ利用者が増えることで、今まで限られた専門家にだけ注目されてきた公的統計が、より多くの利用者の関心を得るようになってきました。

現在は、AI、IoT技術の普及、ビッグデータを利活用することで生まれる新技術、産業に応用するニーズが揃ってかつてない好機となっており、社会全体に影響を与える大規模ブームとなっています。そんな中で、経済産業省のビッグデータプロジェクトは2014年からスタートし、私は2016年から参加しており、本年度はプロジェクトの座長を務めています。私たちは、ビッグデータと新しい技術を結びつけることで、公的統計の今後の発展とデータを活用した新ビジネスが、わが国に創出されることを目標に活動しています。

公的統計作成の難しさ

近年、公的統計の精度向上が求められています。その一方で調査環境は悪化しています。つまり、データソースを家計や企業からの報告に依存した従来の統計調査法だけでは、公的統計の質を維持することが困難になっているのです。例えば、シェアエコノミー等に代表される新たなビジネスがどんどん現れ、産業構造の分類・把握が追いついてない状態になっています。また、企業活動の変化(製造業のサービス化、サービス業のものづくり等)により、従来の業種分類で把握するのが困難にもなっています。連絡先についても特定の住所を持たず、電子メールや携帯電話しか連絡手段がない場合もあります。これらの多様化により、従来のやり方では調査票の回収や営業形態の把握が困難になっています。

この現状の中で私たちのプロジェクトは、ビッグデータや新技術を公的統計の作成に活用するための活動を行ってきました。このプロジェクトが長く続いた背景には、2016年12月に経済財政諮問会議で、「統計改革の基本方針」が取りまとめられ、新たなデータ源の活用としてビッグデータの活用等が明記されるという政府の後押しもありました。

どう変わる?公的統計の調査フロー:本プロジェクトの取り組み

私たちのプロジェクトでは、ビッグデータや新しいテクノロジーを現状の統計調査のフローのどこに活かせるかについて考えています(図参照)。データ入力や、個票・集計値の異常値有無の審査はAI技術を活用、集計や加工はデータサイエンスの技術を応用、作表・グラフ化・文章化はRPA(Robotic Process Automation)で行い、公表はデジタルダッシュボード上で行ってユーザーの利便性を高めるといったように、例示にしか過ぎませんが、現状のワークフローに新しい技術を応用する可能性は大いにあると思います。

私たちのプロジェクトでは、この中でも調査票の紙・オンライン提出の部分を民間のデータベンダー企業が持つビッグデータに置き換えるという取り組みを行いました。具体的には、経済産業省の「商業動態統計調査」を対象とし、この新たな調査方法に対して、2018年7月に総務大臣の承認を得て統計法に基づき「一般統計調査」として実施し、2019年2月に結果を公表しました。この図の中でも、データを収集する部分のたった1カ所だけではありますが、この仕組み自体の承認を得て、新たな調査方法を開拓することができた初めの大きな一歩であります。

図:従来の政府統計のワークフロー

ビッグデータ利活用先進国への海外調査

2018年12月に海外調査を行いました。訪問先は、デジタル政府の推進およびビッグデータの利活用に言及している国、実証研究事例がある国、また公的統計にビッグデータを実装した、もしくは活用した事例がある国の中から、イギリス、オランダ、シンガポールを選び、複数の都市と機関を訪問しました。

ヒアリングの中では、追加的に統計人材の育成を行っているか、分析や公表方法の工夫なども調査しました。ここでのビッグデータは、民間企業が保有するデータと国が保有する行政記録情報の両方を指します。

公的統計へのビッグデータの活用状況

まず、私たちが行っている、公的統計を民間のビッグデータで代替集計する試験調査についてはヒアリングを行いました。公的統計へのビッグデータの活用状況及び統計調査の実施状況を確認したところ、3カ国とも、消費者物価指数(CPI)の一部で利用されているものの、調査そのものをビッグデータで置き換えるという取り組みをしている国はありませんでした。

一方、ビッグデータを指標作成の一部に活用している事例は数多くありました。

イギリスでは、複数の機関と連携し、UK House Price Index(UK HPI)を作成、公式統計化していました。また緑化の深度を測るためにストリートビューから得られる情報を利用した例や、GDPの予測に船舶の輸送情報を活用した事例がありました。

オランダでは、指標の開発期間は民間企業とパートナーシップを締結し、研究目的でビッグデータの無償提供を受けています(携帯電話位置情報等)。その中で精度が高く有益なものがあれば公的統計として承認するという方針です。

シンガポールでは行政記録情報の活用が進展していました。税務情報は、匿名化されており、限られた環境での利用ではあるものの統計作成に利用可能な状況です。しかし、民間のシンクタンクやリサーチ企業の調査が充実しており、彼らがさまざまな指数を素早く公開するので、公的統計に民間ビッグデータを活用することへの意識はあまり高くないような印象を持ちました。

統計作成現場の人材育成

人材育成については、最も先進的といえるのがイギリスでした。国がデータサイエンティストの定義を詳細に定め、2017年に国家統計局(Office for National Statistics: ONS)内に「Data Science Campus」 を設立しました。教員としてデータサイエンティスト40名が在籍しており、2021年にデータサイエンティスト500名を輩出することを目標としています。また修了後のキャリアパスや仕事の範囲が示されており、有識者が安心して学べる環境が特徴的です。

オランダのヒアリングでは、ワークショップ形式で交互に活動報告する形式で行えました。参加した職員の多くが、統計学、物理学、経済学のPhDを有しており、高い研究能力を持つ人材が統計現場にいることが分かりました。

シンガポールでは、シンガポール国立大学とMOUを結んでいます。2023年までに全ての公務員に基本的なデジタルリテラシーを、2万人の公務員にデータ分析とデータサイエンスの研修を実施し、リテラシーを身に着けることを目標としています。 いずれの国でも、高い数値目標を立てて、学術機関、公的研究機関等とMOUを結びデータサイエンティストの育成をしていることが分かりました。

統計作成の実施体制

イギリスでは近年の統計に関する法律の改正により、行政記録情報・税務情報・民間データに対して、統計作成のための利用を目的としたアクセスが可能となりました。それに伴い、プライバシー保護や組織間のデータ接続などについて、法律に基づく判断ができる専門家が組織に入っています。そこで重要になってくるのが、専門家の間に入って調整するスタッフの存在です。専門的な話が理解でき、高いコミュニケーションスキルを持つ人物が必要となります。日本では1人がさまざまな役割を兼任することが多いですが、イギリスでは調整役を仕事として重視して評価しており、それによってチームが円滑に動いているようです。

オランダは、2016年に「Center for Big Data and Statistics(CBDS)」を設立し、アムステルダム大学、ライデン大学、IBM、Microsoft等の民間企業、各国統計局等45の法人とパートナーシップを締結しています。またAI技術の活用など高度な統計解析が可能な統計学、物理学、経済学のPhDを有する職員が在籍し、新たな統計指標や政策に役立つ分析を積極的に行い、その結果はベータ版としてCBSのホームページに積極的にリリースされています。

シンガポールでは、従来の統計局とは別に首相直下の組織として2014年にData.gov.sgを設立しました。給与面では負けているものの人材確保はGAFAと競合しており、女性が働きやすいような工夫をすることで優秀なデータサイエンティストを確保しています。

統計情報の公表方法の工夫

公的統計は調査結果の確定にほとんどの時間を注力しますが、成果を広めるためには、公表方法の工夫が欠かせません。日本が遅れている印象がある公表方法について、各国の取り組みについて調査しました。

イギリスは、ウェブ上での情報開示が上手な印象はないものの、作成した統計調査をいろいろなソースコードで書いて共有していました。

オランダは分析や公表に非常に積極的で、ホームページ、Facebook、Twitter、Instagram、RSS、ニュースレター、動画など多様な手法で効果的に広報活動しています。背景として、多民族国家で、さまざまな言語が話されているため、言葉よりも絵のほうが情報が伝わりやすい場合もあるでしょうし、世代によっては紙媒体を見ない、ホームページを見ないという人もおり、SNS等他のチャネルでも伝えようとしています。情報を出す側にとっては重複した作業に感じるかもしれませんが、結果を隅々まで届けるという点では多種多様な媒体で伝え続けていくことが大事だと思いました。また、その作業を逐一外注していては日常業務が煩雑になるため、内製していることも大きな特徴です。

シンガポールはデータビジュアライゼーションを積極的に活用し、GovTechの「Data.gov.sg」では1,691のデータセットと13のAPIを公開しています。その際、統計分析やデータ作成しやすいような形式での提供を行っています。システム開発は内製で行い、オープンソースを活用することで、開発期間とコストのカットを実現しています。近い将来、「蛇口を捻ると水が出てくる」ように、ユーザーの求めに応じ、扱いやすい、すなわちデータのフォーマットが整っている状態で、統計データを即時に提供することを目指しています。

「商業動態統計調査」をビッグデータで調査する:試験調査について

前述しましたように、私たちは「商業動態統計調査」の一部をビッグデータで置き換えて、公的統計として公表する試験調査を行いました。この取り組みについては、今回訪問した3カ国では実施している国はなく、一歩進んだ事業をしていると言えます。私たちの取り組みをご紹介します。

まず、2017年に「POS家電量販店動向指標」を作成しました。家電量販店のPOS情報を活用して、週次の販売動向を把握するのが目的です。ジーエフケーマーケティングサービスジャパン株式会社(GfK)の協力の下、データ集信、データクリーニング、データ集計し、既存の商業動態統計と規格をそろえた上で、販売動向指標を作りました。既存統計との間にはわずかな差異がありましたが、ほぼ正確に動向を追うことができました。この試みが有効であったことを受けて、新たな手法による統計調査を実施しました。家電量販店のPOSデータから「商業動態統計調査」の家電部門の調査票情報を作ろうという新しい手法です。従来は各報告企業が経済産業省に調査票を提出していたのを、すでに各報告企業とデータビジネスを行っている民間事業者に調査票情報を作成してもらいます。このスキームの承認を2018年7月に総務大臣から得て、統計法に基づき「一般統計調査」として実施し、2019年2月に結果を公表しました。この一歩は小さく感じられるかもしれませんが、非常に大きな意味があります。ビッグデータを有する民間企業が、公的統計の報告者として認められたことで、各報告企業の負担軽減、ビッグデータ利用による商品分類、地域分類の詳細化、集計や公表の速度と精度の向上、データベンダーのビジネス機会の創出にもつながることが期待されます。

試験調査結果(家電大型専門店分野)の特徴

POSデータによって、「商業動態統計調査」の販売動向を作成することのメリットは、集計期間の高頻度化(月次→週次)、公表時期の早期化、また、POSは品目ベースなので、標準産業分類よりも柔軟な集計が可能になり、金額ベースだけでなく数量ベースの情報もとれます。さらに、客体負担の軽減と統計業務の効率化が可能になるという数多くのメリットがあります。

プロジェクトの試験調査で得た結果を使えば、家電製品の販売動向を週次で統計表を集計でき、公表の早期化に繋がります。また都道府県別に従来よりも細かい分類で商品別の販売実績を把握できるようになります。さらに従来は区分できなかった電子商取引(E-commerce)による販売実績も知ることができます。 以降で、活用例と関連する新指標を紹介します。

試験調査結果の活用例と新指標作成

例えば、週次のエアコンの販売実績を把握することで、気象情報と売れ行き動向についての分析ができます。平成30年度は1964年の統計開始以来、7月中旬以降の気温が最も高くなりました。例年はエアコンの販売のピークは1つで7月前半なのですが、平成30年は7月後半に前半より高いピークができ、ピークが2つになったことが分かりました。

同じく平成30年の12月に商品購入に対する大規模キャッシュバックキャンペーンがありましたが、この期間の前年同月比について月次×全国集計だと影響が平準化されてしまうのが、週次×都道府県分析することによって、東京都での影響が非常に高いことが観察されました。このように、時間、地域、商品方向に詳細化することで、イベントや政策、自然災害等のより詳細な影響の測定が可能となります。

私がGfK社と共に開発に関わった新指標は、同じく家電製品に対して、それぞれの製品の原産国情報を用いています。それにより、国産か海外産かを識別でき、国産比率、海外産比率を製品ごとに月次で計算しました。もちろん、POSデータですから、販売金額ベース、販売数量ベースで計算できます。さらに発展させて、国産品だけに注目して、消費者が購入した国産製品の情報を使って、国内製造された量を推計することを試みました。具体的には民生用電気機械のIIP(鉱工業指数)の採用品目である8品目を対象として、国産品の販売金額、販売量を用いてIIPの確定値を推計しました。販売データを用いるので、製造した時期と1カ月ラグがあると仮定して、動向を比較したところIIP確定値のナウキャストに使用でき、公表時期もわずかですが早められることが分かりました。

今後の展望と課題

民間ビッグデータを利用するメリットは、公表時期の早期化、集計期間の高頻度化が規定できること、また、品目・行動ベースなので、標準産業分類よりも柔軟な集計が可能になります。さらに、客体負担の軽減と統計業務の効率化が可能になるという点もあります。 一方デメリットとしては、精度やバイアスのコントロールが困難であること、民間データホルダーの合併や倒産などによりデータの継続利用が担保できないことが考えられます。なお行政記録情報(税金、登記、車検証等)は公的機関が収集するため、このようなデメリットがないものと考えることができます。

本プロジェクトの試験調査が、将来基幹統計化されれば、ビッグデータの公的統計への利活用分野においてわが国がトップランナーとなり得る可能性があります。そのためには、関係府省、民間企業との連携を強化し、行政記録情報、ビッグデータを安価に入手し、さらなる積極的な活用が必要です。実施体制強化、人材育成としては、外部人材を活用するなど、実施体制の拡充や、研修の充実、人材育成が急務であると考えています。

さいごに

冒頭の問いの「ビッグデータは公的統計を変えられるか」に対する答えは、私は「変えられる」だと思っています。そのためには海外の事例からも積極的に学び、今あるデータを活かす試みを続けていく必要があります。民間ビッグデータや行政記録情報を統計調査に活用することは可能かつ意義があることだと思いますが、そこには予算、手続き、人員確保が必要となります。しかしそれにもまして重要なのが、ビッグデータを活用しようという熱意と新しくて独創的なアイディアを持つ人材の発掘と彼らをサポートする環境があるかだと思います。将来、日本がこの分野で先進的な立場にあることを強く願っています。

質疑応答

Q:

民間サービスからのデータ活用について伺います。民間企業が統計まで行い、結果を販売しているケースもままあると思います。政府による公的統計との役割分担について、また海外でも議論されているのか、お聞かせください。

A:

最近、民間企業のデータビジネスが報道でも取り上げられており、企業間で競争させて、良いデータを採用すれば公的統計は要らないのでは、または任せて良いのではといった議論はあります。しかし、国の統計と、民間企業が営利目的でニーズに応じて作っている統計は、今の時点では品質を異にする別のものだと考えています。シンガポールではこの点について割り切った考えを持っているようで、例えば商業分野ではモールが持っているデータが多く、シンクタンクの分析力が高いので、速報は民間に任せ、国の統計はデータの速報性にはこだわらずに棲み分けをしているようです。

Q:

基幹統計では調査票を出す側に義務があるので無償のデータになりますが、一般統計では、企業に委託費を支払うことになります。諸外国でのコスト面の問題はどのように対処していましたか。

A:

個別の調査について実際かかったコストに関するヒアリングはしませんでしたが、今後追加調査したいと考えております。イギリス、オランダでは統計局が統計作成のために協力依頼した場合には企業はデータを提出するという法律があります。契約や友好的なアプローチを通じてデータを入手しているそうです。こういった法律の存在は統計作成現場への大きなバックアップに感じました。

Q:

まだ取れていない、有効と思われるビッグデータもあると思います。公的統計が活用できる新しい分野があれば教えてください。

A:

諸外国では民間統計を公的統計に直接的に代替させているような調査はなかったのですが、かなり細かなビッグデータを政策立案に関してスピーディに利用していました。例えば学校をどのように分布させると親子双方にとって最適であるか、というようなことを実際の通学距離のデータと子供が学んでいる内容に関する情報を組み合わせることによって、新設校のタイプと位置を決定する際の情報としていました。また、シンガポールでは混雑とテロが大きな懸念事項なので、車の量と動きや国営・民間問わず駐車場のロットのデータを活用していました。渋滞の予測をしたり、新道路の計画に利用したり、いつもと違うパターンで混雑が起きていないかでテロ対策をしたりしています。日本でもスマートデータで電力の需要をとらえようとしています。

この議事録はRIETI編集部の責任でまとめたものです。