ノンテクニカルサマリー

RCTをめぐる3つの問題とその解法―精度問題、ノンコンプライアンス、仲介変数による観察中断

執筆者 山口 一男 (客員研究員)
研究プロジェクト 日本におけるエビデンスに基づく政策の推進
ダウンロード/関連リンク

このノンテクニカルサマリーは、分析結果を踏まえつつ、政策的含意を中心に大胆に記述したもので、DP・PDPの一部分ではありません。分析内容の詳細はDP・PDP本文をお読みください。また、ここに述べられている見解は執筆者個人の責任で発表するものであり、所属する組織および(独)経済産業研究所としての見解を示すものではありません。

政策史・政策評価プログラム(第四期:2016〜2019年度)
「日本におけるエビデンスに基づく政策の推進」プロジェクト

本稿では実証に基づいた政策立案(EBPM)において最も多用され、また応用が簡単と信じられているRCT(randomized controlled trials)で政策評価などを行う際に直面する3つの問題に対しての標準的対応を解説する。3つの問題の1つはRCTの標本設計を通じて、治療効果推定の精度を高める方法についてである。2つ目は治療群(処置群)と統制群への標本割当てがランダムでも、割当てに従わない被験者が存在する、いわゆるノンコンプライアンスの問題が生じる場合の適切な推定方法についてである。第3は具体例を後述するが、観察中断などが起こる場合の治療効果の推定問題についてである。

最初の精度問題については標本コストを一定にして精度を高める(あるいは同じ精度を達成する標本数を少なくすることで調査コストを削減する)標本抽出のデザインについて解説している。まず最適な配分において、治療群と統制群の標本数の比は、治療群と統制群の一標本当たりにかかる費用の比の平方根に反比例する、という結果が紹介される。またこの結果、例えば新薬の治療効果をRCTで測る際に、新薬の治療費は今までの治療薬の費用の9倍である時、治療群と統制群の標本数を調査予算内で1対3とするのが最適となり、また少人数クラスの効果を測る際に、少人数クラスの平均生徒数は15人、通常クラスは30人で、前者の一人当たりの費用が後者の費用の2倍の時、治療群と統制群の標本数を調査予算内で1対\(\displaystyle {\sqrt {2}}\)とするのが最適となる、ことなどが実例として示される。

またそれに続いて、治療群と統制群の標本数が与えられたときに次のステップとして、例えば結果について年齢や性別で平均値が異なるとき、標本を性別や年齢についてどう配分したら平均治療効果の精度が高められるについて解説している。標本を母集団での年齢や性別の割合に比例して配分すれば、性別や年齢間の結果のばらつきが平均治療効果の推定値のばらつきに影響しなくなり、精度が高まることとその理由が示される。

第2のノンコンプライアンス問題の対処に関して、最近大きな進歩があり、その進歩について紹介している。ただ、この問題に関しては問題の理解の歴史的経緯の理解が必要なので、それもあわせて解説している。ノンコンプライアンス問題とは調査による治療群(処置群)と統制群の割り当てと、実際に治療(処置)を受けた人と受けなかった人の対応が完全でなく、そのためRCTの特性であるランダム性が失われてしまうときの因果推定の問題である。この問題には標準的な計量経済学的因果推論の手法である、操作変数法が1つの解を与えることはよく知られている。操作変数というのは、治療変数には影響を与えるが、結果変数には直接影響を与えず、結果に対して治療変数への影響を通じて間接的にのみ影響すると仮定できる変数をいい、そういう変数があると、治療変数と結果の双方に影響し、そのため治療効果の推定にバイアスをもたらすような変数(交絡要因という)に、観察できないため制御できないものが存在する場合でも、バイアスのない治療効果が測定できるのである。ノンコンプライアンス問題の場合には、治療割当てを操作変数、実際の治療の有無を治療変数とすれば、結果は治療の有無のみに依存し、割当てには直接依存しないと考えられるので、操作変数の条件が満たされる。

しかし、操作変数による推定は大きな問題がある。それは精度が劣ることである。この問題に対し本稿はブラックら(Black et al 2015)が最近導入した比較的簡単な、内生性(観察されない交絡要因があること)の有無のテストの方法を紹介している。ブラックらの方法を用いれば、そのテスト結果により内生性が無いと結論できれば、より精度の高い治療効果の推定値を用いることができることになる。本稿では米国テネシー州小学校でのノンコンプライアンス問題が生じたRCTによる少人数クラスの影響についてのデータの分析で応用を例示し、通常の操作変数法では精度が悪いため矛盾する結果(全体では少人数クラスは英語力を高めるのに、人種グループ別にみるとどのグループでも高めない)を得るが、ブラックらのテストを行った結果、内生性が否定されたので、より精度の高い効果を推定したところ、少人数クラスは白人には依然として有意な結果の差をもたらさないが、黒人には英語学力を有意に高めるという新たな知見が得られるという著者の分析結果を紹介している。

3番目の問題は、死亡など観察中断が起こる場合の治療効果の推定問題である。まず具体例で問題を説明しよう。今新たな癌治療法の効果を見たいとする。しかし医療研究者はその治療法により癌治癒率が上がるか否かだけでなく、治癒後の健康状態の影響にも関心がある。強い薬の場合、治癒はするが、治癒しても健康を害してしまう恐れがあるからである。新たな治療法で治療を受けるか否かはRCTで行うと仮定する。すると治癒率への新薬の影響は観察された治療群と統制群の治癒率の差として簡単に推定できる。だが、生存者の間で新たな治療法が健康を害したか否かの推定は簡単ではない。この場合、治癒できずに死んでしまった人々が治癒後の健康度の観察のできない「観察の中断された」人々で、当然、病状の重い人が死ぬので、結果(健康度)と独立ではない。新たな治療を受けても受けなくても生存できる人々は、治療群の生存者と統制群の生存者の双方に存在する。だが新たな治療法で治療を受けたから生存できたが、そうでなければ死んだであろう人々は、治療群の生存者のみに存在する。また後者の生存者はもともと前者の生存者より健康度が低い可能性が高い。つまり、当初の治療群と統制群への配置がランダムでも、治癒後の健康度を計測できる生存者の間では、治療群と統制群への配置はもはやランダムではなくなる。

本稿では、なぜ「差の差(DID)」の分析など通常の計量経済学的手法がこの場合に不適切と考えられているかについて説明し、さらにこの場合には「統制群の平均治療効果(ATU)」(新治療を受けずに生存できた人がもし新治療を受けたならばその健康は下がるのか否か)については、一定の仮定の下で推定できることを説明し、その推定方法を解説している。