コラム・寄稿「EBPMの基礎をなす政策の効果検証の入門の入門」

EBPM（エビデンスに基づく政策形成）におけるエビデンスとは、「政策の因果効果を表す実証的根拠」と定義される場合が多い（大竹・内山・小林編, 2022）。本稿では、EBPM（特に政策の因果効果（以下では単に「効果」と呼ぶ）を検証すること）に関心のある方々の参考となるように基本的な事項を解説した。

1．総論

政策の効果を検証する場合には、当該政策の対象となった人や企業（以下では「介入群」）とならなかった人や企業（以下では「対照群」）を比較するのが基本である。また、効果検証を行うためには数値で示すことができる実際に計測可能な目標の設定が必要になり、このような数値はアウトカムと呼ばれる。適切な比較対象とアウトカムを設定できるかどうかが、信頼できる効果検証を行うための鍵となる。

2．比較対象の設定

(1)適切な比較対象がないとどうなるか？

①比較対象がないと個々の政策の効果があったかどうかはわからない。

リカレント教育を受けた者で1年後に賃上げにつながった比率が50%を超えたとしても、リカレント教育を受けなかった人々と比べないと、この教育に効果があったかどうかはわからない。
中小企業対象の補助金を受領した企業の付加価値額が5年後に平均値で10%以上上昇したとしても、補助金を受領しなかった企業と比べないと、この補助金に効果があったかどうかわからない。
スタートアップしたばかりの企業に対する支援措置を受けた企業のうちの10%以上で時価総額が1000億円を超えたとしても、支援措置を受けなかった企業と比べないと、この支援措置に効果があったかどうかはわからない。

②比較対象が存在する場合でも単純比較では政策の効果は把握できない。

リカレント教育を受けた者は、受けなかった者に比べて、向上心・能力・学歴・年齢などさまざまな面で元々からの違いがあり、仮に、リカレント教育を受けた者が受けなかった者よりも賃金の上昇が大きくても、それは教育の効果ではないかもしれない。
中小企業対象の補助金を受領した企業と受領しなかった企業の間で、経営者や従業員のやる気・情報収集能力・過去の成長トレンドなどさまざまな面で元々からの違いがあり、仮に、補助金受領企業が受領しなかった企業よりも付加価値額の上昇度が大きいとしても、それは補助金受領の効果ではないかもしれない。
支援措置を受けたスタートアップ企業と支援措置を受けなかった企業の間で、潜在的な成長力、経営者や従業者のやる気などさまざまな面で元々からの違いがあり、仮に、支援措置を受けた企業の時価総額の伸びが支援措置を受けなかった企業よりも大きいとしても、それは支援措置の効果ではないかもしれない。

(2)介入群と対照群の間の条件を揃えるための工夫

表1でエビデンスのレベル（高低）を示しており、レベルが高いほど信頼度が高くなる。政策の対象者だけの事後調査（セミナー参加者や補助金受給者への満足度調査など）、政策の対象者だけの前後比較、政策を受けた者と受けなかった者の単純比較はエビデンスのレベルが低く（レベル2以下）、その結果を政策形成の基礎情報とすることは推奨できない。

介入群と対照群の間の元々の違いを処理して政策効果を厳密に検証するための手法はいくつかあるが（表1のレベル3以上）、政策を実施する以前からの周到な準備が必要な場合が多い。以下で主なものを説明する。

①ランダム化比較試験（RCT, Randomized controlled trial）

介入群と対照群をあらかじめランダムに振り分けて介入を行う実験手法で（図1）、主に医療において行われてきた。RCTはコイントスで表が出たら政策対象とするイメージで、群分けを偶然に任せることになるが、ランダム化によって介入群と対照群がほとんど同じ属性を持つようになるため、他の手法と比べてエビデンスのレベルが高く（レベル5）、また、発想としてはシンプルなので、一般の人々にも分析結果を説明しやすい（不正がない限り結果を疑う余地が少ない）。ただし、RCTでは詳細な段取りが必要なため、設計段階から専門家が関与しないと実施は難しい。また、RCTで示されたエビデンスは、実験対象と異なる集団に対しては保証されないため、結果を安易に一般化しないように気をつける必要がある。

経済産業政策関係のRCTとして、Ito, Ida, and Tanaka (2018)では、京都けいはんな地域の691世帯をランダムに3群に分けて、節電要請グループ（節電が必要な時に要請のみ行う）、ダイナミック・プライシング・グループ（節電が必要な時に電気料金を上げる）、コントロール・グループ（介入なし）に分けて、これら2つの介入の効果を検証した(伊藤, 2017; 依田・田中・伊藤, 2017)。

奨励デザイン・クラスターRCT

RCTの応用として奨励デザインやクラスターRCTがある。奨励デザインでは政策の対象となりうる人々（企業）をランダムに介入群と対照群に分けた上で、介入群のみに政策措置への参加を促す。この場合は、当該政策措置の対象となるかどうかは案内を受けた側の任意になるが、奨励という介入により行動を変化させる人々（企業）、つまり奨励により政策に参加する人々（企業）にとって政策の効果がどの程度か推定できる（LATEと呼ばれる）。たとえば、政策措置（補助金や研修など）の対象者が膨大で事務が処理できない場合に、ランダムに先行群と遅行群に分けて、先行群にだけ政策措置の案内を送れば、遅行群が政策措置を受けるまでの期間については効果検証が可能になる。

奨励デザインを使った例として例えば以下のものがある。これは米国の研究で、低所得者へのエネルギー料金の一部を補填する補助金プログラムの適用が申請ベースであることを利用して、条件に該当する人々をランダムに2群に分けて介入群のみ申請を促す手紙を送ることにより、2群の間での申請割合の差を作り出し、それを利用してエネルギー料金引き下げの効果を検証した (Hahn & Metcalfe, 2021)。

クラスターRCTでは、個々の人や企業ではなく、それらが所属する組織（学校、教室、地域など）をランダム化することによって、介入効果を検証する。クラスターRCTは経済産業政策では適当な例を見つけられなかったが、医療関係ではマスク着用のコロナ予防効果の検証のためにこの手法を使った例がある。バングラディシュの600の村を介入群（マスク着用を推奨するとともに無料のマスクを提供）と対照群（何もしない）に分けて、介入群の住民のコロナ感染割合が対照群と比べて低いかどうかを検証した (Abaluck et al., 2022)。

②回帰不連続デザイン (RDD, Regression discontinuity design)

RDDでは、何らかの変数（ランニング変数）が特定の点数（カットオフ）を上回ると介入が行われてカットオフを下回ると介入が行われない場合に、カットオフの近傍のサンプルについては介入を受けた人々と受けなかった人々がほぼ同じであると仮定して、介入の効果検証を行う。例えば、中小企業の補助金の効果検証でRDDが使われている (Cerqua & Pellegrini, 2014; Takahashi & Hashimoto, 2022)。

図2はメタボ健診にRDDを適用した例である。一定の条件を満たすと、BMI（体重を身長の2乗で割ったもの）が25以上ではメタボ健診の特定保健指導の対象となり、25未満では対象とならないことを利用して、保健指導の対象となることの翌年のBMIへの効果を検証している。

RDDではカットオフ周辺のサンプルでしか分析が行えないという限界がある。また、介入の対象になろうとしたり外れようとしたりしてカットオフ周辺でランニング変数の操作が行われると正確な分析が行えなくなる。

③差の差分析 (DID, Difference-in-difference)

ある政策が特定時点（T0）以降に特定の人々や企業を対象として行われ、それ以外に対して行われない場合には、前者を介入群、後者を対照群として扱って分析する。仮想的に政策が行われなかった際、T0以降の両群のアウトカムが平行に推移するという仮定（平行トレンド）の下、政策の効果を推定する（図3）。T0以前に両群のアウトカムが平行に推移している場合、平行トレンドの仮定はもっともらしいと判断する。

DIDを実施するためには政策実施以降のみならず実施以前のデータが介入群と対照群の両方において必要である。実際には平行トレンドが満たされないために分析まで進めない場合も多い。

④傾向スコアマッチング(PSM, Propensity score matching)

介入の有無やアウトカムに影響を与えうるさまざまなデータ（変数）を用いて1つの得点（傾向スコア）を計算し、介入群の人々や企業の得点とよく似た対照群の人々や企業をマッチさせて比較する。この方法によりRCTのような実験を行うことなく「疑似ランダム化」することになる。PSMとDIDを組み合わせることもある（PSM-DID）。例えば、Takahashi and Hashimoto (2022)ではPSM-DIDを使って小規模事業者持続化補助金を申請した企業が申請しなかった企業に比べて生産性や売上高の伸びが大きかったことを報告している。

「疑似ランダム化」が成功するためには介入の有無やアウトカムに影響を及ぼす重要な変数の数値がすべて分かっていてマッチングのための作業に使えることが必要だが、実際にはこのような変数の中にはデータ化されていないものも多い（やる気や真面目さのような心理的な変数など）。この場合、PSMの分析そのものは行えても分析結果が真の値（通常はわからない）からかけ離れる場合がある。例えば、最近の医療研究で次のようなことがあった。脂質異常症の薬であるスタチンを服用すると心筋梗塞が減少することは複数のRCTで既に判明しているが、イギリスのデータベースを使ってPSMとRDDで分析したところ、RDDではRCTと類似の結果が出たが、PSMでは心筋梗塞が2倍以上増えるというありそうもない結果になった(Odden et al., 2023)。

3．アウトカムの設定

(1)アウトカムとなるデータの取得の必要性

政策の効果検証を行うためには、数値で示される目標の設定が必要になり、このような数値はアウトカムと呼ばれる。各省庁が作成するロジックモデルで設定したアウトカムが定量的でなかったり、アウトカムとなるデータが実際には計測できなかったりする場合も見受けられるが、政策の効果検証という観点から見ると望ましくない。

アウトカムとなる変数は介入群も対照群も必要であり、たとえば中小企業向けの補助金であれば、採択企業だけでなく非採択企業についても、補助金採択時期の前後のデータが必要になる。また、採択企業と非採択企業双方の大部分のデータが長期にわたって似たような割合で存在することが望ましい。たとえば、5年後の売上高等のデータを採択企業では8割取得できたが、非採択企業では2割しか取得できなかったとすると信頼できる分析の実施は難しくなる。

アウトカムは連続値（企業の売上高、従業員数、血圧など様々な連続する値）だけでなく二値変数（死亡した、中小企業が大企業になった、何らかの変数が特定の値を超えたなど、0か1で表せるもの）でもさしつかえない。

(2)データ取得の困難さと考え得る対策

アウトカムとなるデータを補助金等の政策介入を実施する部局自体が取得するのは難しい場合が多い。実際の分析では、企業を対象とした分析の場合は、研究者が行政当局から補助金の申請企業の法人番号や企業名などを入手した上で、政府統計（経済センサス、工業統計など）や企業信用調査会社（東京商工リサーチ（TSR）など）のデータと接合して分析する場合が多い。ただ、これらのデータも固有の弱点がある（ここでは省略する）。省エネ法の定期報告(吉川ら, 2018)や障害者雇用促進法の雇用状況報告(Matsumoto et al, 2023)のように、事業者から行政機関への報告事項を研究者が利用できるようにすれば行える分析もある。

個人の場合、個人情報保護の観点から、アウトカムとなる変数の取得には法人と異なる制約がある。リカレント教育など個人向けの介入を行う場合には、メンタルヘルス、ウェルビーイング、成績（TOEICなど）のアウトカムはアンケート調査やテストで把握できるが（但し倫理審査が必要な場合が多い）、所得や資産などの把握は難しい。仮に市町村の協力が得られるなら、介入を市町村で行い、介入を行った人と行わなかった人のフラグのついた匿名化された所得情報などを入手して分析するというのもあるかもしれないが（東京大学 (2022)で似たことを試みている）、ハードルは高い。

(3)アウトカム取得を巡る今後の課題

行政の現場における対応レベルを超えるが、国や地方公共団体が保有する行政情報（特に税務情報）や電力会社・ガス会社が保有する世帯毎のエネルギー消費量が分析に使えるようになると、より正確な分析が可能になるのみならず、アウトカム変数を行政の現場で取得する必要がなくなり、現場の負担が減る。

現状では政府統計の個票情報を研究者が入手して分析する場合が多いが、政府統計が政策の効果検証に用いられる可能性に留意して、統計担当部局が調査対象や質問項目の設定に配慮することが望まれる。また、政府統計の利用に至るまでの手続きが膨大で研究者泣かせなので、EBPMを推進するためにはこの点の改善も望まれる。

4．終わりに

EBPMは一見難しそうで、実際にも難しい場合が多いのだが、何らかの指標が一定の数値を超えると政策が実施されたり、予算やリソースの都合で政策の実行に優先順位を付けたりする場合など、個々の政策の微妙な特徴に着目することによって政策の効果検証を行える場合はかなりある。

所管の政策がEBPMになじまないと決めつけるのではなく、効果検証が本当に行えないか、予断なく検討していくことが望まれる。

（謝辞）
本稿の執筆に当たり、RIETIの政策エコノミストの方々から貴重なアドバイスをいただきました。深く御礼申し上げます。

EBPMの基礎をなす政策の効果検証の入門の入門