RIETI - 正確で効率的なデータ構築をめざして

実証分析に入るまでの、大事なひと仕事

近年、マイクロデータへのアクセス可能性が高まり、計算機やソフトウェアの開発も進み、多くの研究者が豊かなデータベースを構築し、実証分析を行っている。マイクロデータを用いた実証分析は、エビデンスに基づく経済政策の立案にとって不可欠である。しかし現状でも、大規模なマイクロデータを入手した際には、分析可能な形にクリーニングし、形成するのに多大な時間を要する。また、データによっても形式 (txt、csv、固定長、特定のソフトでのみ読み込み可など)が異なり、変数名の定義や個体認識IDなどのルールも煩雑で、その都度時間をかけてデータを理解し、向き合っていくことになる。さらに、通常は複数統計を使用するので、マッチングの作業も必要となってくる。

データハンドリングに慣れている研究者でも、作業工程でミスをしてしまうことがあるが、その誤りが実証分析に与える影響は大きく本質的である。ゆえにデータ構築には膨大な試行錯誤を重ね、なるべく手作業や目視工程を入れず、自動化処理を目指すことが望ましい。実証研究のためのデータを構築するには、分析パートと変わらない位の技術、戦略、論理性が求められるのである。

RIETIの提供サービス

このような作業には、熟練した技能と長時間の作業が必要であるが、目的外申請で利用を許可される大規模個票データなどは、使用期限が定められている。研究者は速やかに分析に移りたいが、上述のようにデータ形成に多くの時間を割かなければならない現状がある。

そこでRIETIでは、研究者が少しでも効率よく正確な実証分析を行えるよう、経済産業省から提供される統計の個票データのうち、申請頻度が高いものにはデータセット構築のための知識蓄積・共有を行ってきた。具体的には、工業統計調査、企業活動基本調査、海外事業活動基本調査などの事業所や企業を時系列方向に接続してパネルデータを作成する方法や、各調査をマッチングして、事業所と企業が結びついた包括的なデータ構築を行うためのコンバータ作成方法の開発である。RIETIウェブサイトのマイクロデータ計量分析プロジェクトのページに入ると、各種個票のデータ構築に役立つ情報が掲載してある。また、RIETIから個票を申請した場合には、しかるべき手続きを行うことにより、各種コンバータが利用可能となる。

急がば回れ：忘却と思い込みを回避せよ

データ構築をおろそかにしているわけではないのだが、研究者はどうしても分析しながらデータ構築をしてしまうことが多いように思う。それはきっと、自分の仮説やモデルが正しいか、観察したい事象が描写できているのか、少しでも早く計算結果がみたいからであろう。時には、はやる心から元データを直接加工したり、上書きしてしまい、何度も同じ作業をするはめになったり、最悪の場合は元データを再現できなくなることもある。解決法は、非常にシンプルではあるが、分析とデータ構築は同時にしないことである。同時にすると、似たようなデータのファイルが増え、変数もどんどん増えていく。そして、半年も経てば、自分がどのファイルで分析していたのか、どういう風に変数を作っていたのか記憶があやふやになる。忘却、思い込みは、日常生活のみならずデータ構築や研究経過でもよく起きる現象である。

自分が費やすことになる将来の時間を意識して、まずはデータ構築にしっかり時間を割くこと、簡素に、正確に、いつでも見直せて、修正可能な、分析記録をとっておくことが不可欠である。これが統計解析の精度を上げ、より効率的な分析を可能とする。

大きなデータセットと残さないデータ管理

データ構築には非常に多くの時間とエネルギーを要する。だからこそ、仮説や分析テーマを変える度に、再構築するのは非効率である。可能な限り大きなデータセットを作り、分析に必要なものをその都度プログラムによって切り出していく方法をとることを薦める。このような観点で、阿部他（2012）で作成された工業統計調査のコンバータを紹介する。従来の工業統計調査のパネル化のためのコンバータは、多くの研究が数量解析を目的とするため、調査に回答した事業所を対象に作成されてきた。しかし、集積や参入・退出率のように、事業所の存在の有無が重要な場合は、このデータではその目的は十分に達成できない。工業統計調査における大きなデータとは、調査対象となった事業所全てを含み、加えて事業所の識別に役立つ情報をフラグやダミー変数で保持するものである。たとえば、回答・未回答情報をフラグとして加えておけば、フラグを頼りに従来の回答情報ベースのデータセットを切り出せる。

図1は工業統計調査での分析フローの例である。

STEP1: METIから提供される各種情報（元データ）とコンバータ作成のプログラムで、大きなデータセットを作成する。
STEP2: 分析に必要なデータをプログラムによって切り出す。
STEP3: プログラムで記録を残しながら実証分析を行う。

図1：工業統計調査での分析フローの例（阿部氏と共同作成）

ここでいうプログラムとはテキスト情報で各工程を記録したものである。このような流れでは、元データや、作成した大きなデータセット、分析用データの直接加工や保存は行わない。変形、保存、手元に保持するのは各プログラムのみである。メリットは、増えていくのはテキスト情報のみなのでパソコン内の保存容量の節約ができる。また、プログラムで自動化処理を行うので、人為的ミスが入る余地が非常に少なくなる。ミスがあった場合や変更したい場合も、元データへの直接加工がないため何度でも再現可能である。さらに保持するのはテキスト情報のみなので、秘匿情報やデータの流出を防ぐこともできる。

研究においては、ついつい解析を上位に置きがちだが、私は、統計は真実や現実を教えてくれる宝箱だと思っている。時間をかけて大切に扱い、情報を余すところなく使い切れるようなデータ構築を行うことは、研究全体の精度を著しく押し上げると信じている。

2012年7月3日

正確で効率的なデータ構築をめざして

実証分析に入るまでの、大事なひと仕事

RIETIの提供サービス

急がば回れ：忘却と思い込みを回避せよ

大きなデータセットと残さないデータ管理

この著者の記事

速報：2025年ふるさと納税 ― 返礼品の選択構造と制度改正の影響、利用継続意向

生成AIはどのように企業に広がったのか― 中小企業が示す導入の同期性 ―

速報！2024年度ふるさと納税の最新動向～ふるさと納税実態調査より～

地震に備えた対策はしている？地域ごとのデータで見る地震の《備え率》と《リスク感度》

増えまくる《訪日観光客》をデータで分析する　「いつから増えたのか」「日本人旅行者とインバウンド旅行者の行き先の違い」

正確で効率的なデータ構築をめざして

実証分析に入るまでの、大事なひと仕事

RIETIの提供サービス

急がば回れ：忘却と思い込みを回避せよ

大きなデータセットと残さないデータ管理

この著者の記事

速報：2025年ふるさと納税 ― 返礼品の選択構造と制度改正の影響、利用継続意向

生成AIはどのように企業に広がったのか― 中小企業が示す導入の同期性 ―

速報！2024年度ふるさと納税の最新動向～ふるさと納税実態調査より～

地震に備えた対策はしている？ 地域ごとのデータで見る地震の《備え率》と《リスク感度》

増えまくる《訪日観光客》をデータで分析する 「いつから増えたのか」「日本人旅行者とインバウンド旅行者の行き先の違い」

地震に備えた対策はしている？地域ごとのデータで見る地震の《備え率》と《リスク感度》

増えまくる《訪日観光客》をデータで分析する　「いつから増えたのか」「日本人旅行者とインバウンド旅行者の行き先の違い」