RIETI - SMART-EXAM：被験者の厚生を考慮した連続多段階ランダム割付試験

執筆者	Xinru WANG（デューク・シンガポール国立大学）／Nina DELIU（ケンブリッジ大学 / ローマ・サピエンツァ大学）／成田悠輔（客員研究員）／Bibhas CHAKRABORTY（デューク大学 / デューク・シンガポール国立大学 / シンガポール国立大学）
ダウンロード/関連リンク	ディスカッション・ペーパー:23-E-081 [PDF:2.2MB] (英語)

このノンテクニカルサマリーは、分析結果を踏まえつつ、政策的含意を中心に大胆に記述したもので、DP・PDPの一部分ではありません。分析内容の詳細はDP・PDP本文をお読みください。また、ここに述べられている見解は執筆者個人の責任で発表するものであり、所属する組織および（独）経済産業研究所としての見解を示すものではありません。

その他特別な研究成果（所属プロジェクトなし）

現代はランダム化比較試験（RCT, A/Bテスト）の黄金時代である。もともと農業や医療における安全性と有効性の検証のために用いられはじめたRCTは、その後、エビデンスの金字塔として社会全体に浸透した。

RCTには膨大な数の人々が参加している。2007年から2017年の十年間に登録された医療治験にはのべ3億6,000万人以上の患者が参加した。同じ期間に社会経済実験には2,200万人以上の個人・家計が参加した（表1）。これほど多くの被験者に対し、RCTは時として影響や危険の大きい致命的な処置をランダムに割り当てる。たとえば、ある膠芽腫の治験では、膠芽腫患者の5年死亡率が対照群で97%であったのに対し、処置群では88%にまで下がったことが示されている。したがって、この治験のランダムな治療の割り当てによって、参加者573人のうち平均9%(=97%-88%)の人々の生死が左右されたことになる。社会経済RCTでも、ベーシックインカム、高賃金職、HIV検査、警察のパトロールといった処置がランダム化されることがある（表2）。

このように多くの人々の人生と生活に影響を与えるRCTには、しかし、それゆえに課題がある。RCTは被験者をモルモット扱いする人体実験ではないか？という懸念である。「この治験に参加するだけで一日十万円稼げます」といった広告が目につくこと自体、いかに治験が危険と隣り合わせかの証拠だろう。そのため、RCTの処置割り当てをランダムに行うことが許されるかに関する倫理的懸念が広く議論されてきた。「患者にとって最善な治療を行うと約束した医師が、コイン投げのようなもので治療法を選んでいると乳がん患者の女性にどうして伝えられるだろうか？患者の反応に応じて治療法を変更するという選択肢をどうして放棄することができるだろうか？」（医師・医学者 Marcia Angell）「ランダム化は無駄が多く非倫理的だ」（経済学者Angus Deaton、哲学者Nancy Cartwright）この倫理的懸念は、被験者や協力者が実験になかなか参加してくれなかったり、実験の途中で脱落したりする状況を引き起こすことも多く、実験の内的・外的妥当性や統計的効率性を脅かす恐れもある。

この倫理的懸念にどう対処すればいいだろうか？考えられるのは、被験者の厚生を尊重する実験デザインを開発することだろう。処置効果を測るのに十分な情報を生み出しつつ、できるだけ被験者をモルモット扱いしないような倫理的な治験の進め方の考案である。そういった実験デザインは、過剰な実験から患者を守るための臨床試験規制や、処置効果を最も効率よく高速に推定するための適応的実験デザインを補完するものでもある。

被験者の厚生は2つの尺度で定義する。一つ目は各処置の各被験者に対する予測処置効果、二つ目は各処置に対する被験者の選好または支払い意思額（Willingness To Pay; WTP）である。予測効果は、実験者が過去の実験データや観察データから推定することを想定している。WTPについては、被験者に自己申告してもらうか、あるいは被験者の処置選択データから推定することになる。2つの厚生尺度のデータに基づいて、各被験者の処置割当確率を決定する手続きを実験デザインと定義しよう。ここでの目的は、標準的なRCTより厚生を改善しつつ、処置効果を効率的に、そして不偏に推定することができるような実験デザインを提示することにある。

被験者の厚生のどの側面を組み込むかによって、二種類の実験デザインが提案されてきた。一つは過去の治療データから得られた予測効果に応じて割当て確率を調整する反応適応型ランダム化（Response Adaptive Randomization）である（Zelen 1969, Wei and Durham 1978, Hu and Rosemberger 2003; 2006, Eisele, 1994）。もう一つは、参加者の選好を実験デザインに取り入れる選好適応型ランダム化（Preference Adaptive Randomization）である(Zelen 1979, Angrist-Imbens 1990, Chassang et al. 2012)。

厚生の二つの側面をともに取り込むこともできる。そのような実験デザインの提案として、Experiment-as-Market（EXAM）がある(Narita 2020)。この名前は、EXAMが架空の中央集権市場とその競争均衡を用いた実験であることに由来する。EXAMは、まず各被験者に定額の仮想的予算を与える。各処置の割当確率には価格がついており、良い治療効果が予測される被験者ほどその処置の割当確率が安くなるよう、被験者ごとに価格が個人化されている。価格を前提として、各被験者は予算の範囲で最も好ましい（WTPが最も高い）処置割り当て確率の束を購入する。つまり、制約つき効用最大化問題を中央集権市場で仮想的に解く。すると、各処置に対する全被験者の需要の合計とその治療の供給（外生的に与えられていると仮定）が均衡する競争市場均衡が存在する。その均衡における処置割当確率を使って各被験者を各処置に割り当てるのが実験デザインEXAMである。なお、EXAMはどの被験者がどの治療に割り当てられる確率も正になるように制約を加える。

仮想的市場における競争市場均衡を用いた設計は、EXAMに厚生とインセンティブに関する望ましい性質をもたらす。まず、EXAMは被験者の厚生を最大化する処置割当確率を導く。具体的にはパレート最適性を満たし、EXAM以外の他のどんな実験デザインを考えても、割り当てられる処置から得られる予測処置効果とWTPをすべての被験者について（誰のそれをも下げることなく）向上させることはできない。

EXAMはまた、実験者が漸近的にインセンティブ両立的な方法でWTPを引き出すことを可能にする。つまり、実験者がEXAMで使用するために各治療に対するWTPを自己申告するよう被験者に求めるとき、少なくとも大規模な実験においては、すべての被験者の最適な選択は真のWTPを申告することになる。なぜか？仮想的市場においてWTPに関して嘘をつくことが得になるのは、嘘をつくことで均衡価格を操作できる場合だけだが、大規模な実験においては個々人が均衡価格を左右できることはほとんどないからである。

EXAMはデータ生成にも長けている。特に、標準的なRCTで不偏推定できるどんな処置効果もEXAMのデータで不偏推定できる。その理由は、EXAMが予測処置効果とWTPという観察できる変数で層別化された実験であり、各被験者の割当確率（傾向スコア）を実験者が観察できるからである。その結果、EXAMの処置割り当ては、観察可能な傾向スコアに条件づけるとランダムに（他のものから独立して）行われる。この性質は、同じく傾向スコアに条件づけた平均治療効果を不偏推定することを可能にする。条件付き効果の加重平均をとることで、EXAMは（無条件の）平均処置効果とその他の効果を不偏推定できる。

不偏推定に加えて、標準誤差や処置効果の検出力も重要である。一般論としては、EXAMと典型的なRCTの標準誤差の比較は曖昧で、どちらが勝ることもありえる。そこで、検出力、不偏性、厚生、インセンティブの特性を確認し定量化するために、2つのデザインを実証的に比較することが大事になる。

Narita(2020)はケニアで行われた井戸洗浄実験のデータにEXAMを適用した。その結果、RCTと比較して、EXAMは参加世帯の予測厚生を有意に改善することがわかった。ここでの予測厚生とは、井戸洗浄という処置が子どもの下痢を予防する効果と、井戸洗浄に対する世帯のWTPによって測定される。EXAMはまた、被験者が真のWTPを報告するインセンティブをちゃんと与えることもわかった。そしてEXAMのデータは、RCTとほぼ同じ処置効果の推定値と標準誤差をもたらすことがわかった。したがって、RCTから得られる情報と同程度に社会にとって有意義な情報をEXAMは生み出すことができる。

EXAMは静学的な実験設計だが、動的な状況へ拡張することもできる。そのために、EXAMを逐次多段階割付無作為化試験（Sequential Multiple Assignment Randomized Trial、SMART）と融合することが考えられる。SMARTはRCTの動的拡張で、どんな状態の患者にどんな処置を割り当てるべきかを教えてくれる質の高いエビデンスを作り出してくれる(Murphy 2005a、Orellana et al. 2010、Nahum-Shani et al. 2012）。SMARTの作り出すデータを用いることで、時間とともに刻々と変化する患者の臨床状態に基づいて処置を推奨する一連の決定規則、いわゆる動的処置計画（Dynamic Treatment Regime; DTR）を立てることができる (Lei et al., 2012)。

従来のSMARTでは、すべての被験者は各段階で様々な処置に同じ確率でランダムに割り当てられる。従来のSMARTは簡単に実施でき、様々なDTR候補の性能比較を可能にする。その一方で、多くの被験者を望ましくないことが明らかになった処置や被験者自身が嫌がる処置に割り当てなければならないという倫理的問題を抱えている。

この問題を解決するため、EXAMとSMARTを統合することが考えられる。ランダム化の過程で参加者の選好や治療効果の予測を考慮するSMARTの拡張が、本論文が開発するSMART-EXAMである。SMART-EXAMは参加者の選好と予測処置効果を割当確率の計算に組み込むことで、患者の厚生を改善できる。この論文はSMART-EXAMの実施手順を説明し、他のSMARTデザインと比較して、その性質を理論的・実証的に評価した。そして、注意欠陥・多動性障害（ADHD）児のためのSMARTのデータ (Pelham Jr et al. 2016) を用いて、SMART-EXAMデザインの性能を評価した。その結果、従来のSMARTと比較して、最適なDTRを構築する際の情報精度を保ったまま、被験者の厚生を高められることがわかった。

治験を取り仕切る米国食品医薬品局（FDA）は、業績目標の一つとして以下の点を挙げた。「複雑な適応的（中略）およびその他の新しい臨床試験デザインの進歩と利用を促進する」。以上の分析は、この目的に経済学的思考方法が貢献できる可能性に光を当てている。情報・厚生・インセンティブを高める実験デザインと市場デザインのさらなる融合が求められる。

表a 実験1：Scandinavian Simvastatin Survival Study Group and Others, “Randomised Trial of Cholesterol Lowering in 4444 Patients with Coronary Heart Disease: the Scandinavian Simvastatin Survival Study(4S),” Lancet, 1994, 344 (8934), 1383–1389.
表a 実験2：Kass, Michael A, Dale K Heuer, et al., “The Ocular Hypertension Treatment Study: A Randomized Trial Determines that Topical Ocular Hypotensive Medication Delays or Prevents the Onset of Primary Open-angle Glaucoma,” Archives of Ophthalmology, 2002, 120 (6), 701–713.
表a 実験3：Grant, Robert M, Javier R Lama, et al., “Preexposure Chemoprophylaxis for HIV Prevention in Men who Have Sex with Men,” New England Journal of Medicine, 2010, 2010 (363), 2587–2599.
表a 実験4：Cohen, Myron S, Ying Q Chen, Marybeth McCauley, Theresa Gamble, Mina C Hosseinipour, Nagalingeswaran Kumarasamy, James G Hakim, Johnstone Kumwenda, Beatriz Grinsztejn, Jose HS Pilotto et al., “Prevention of HIV-1 Infection with Early Antiretroviral Therapy,” New England Journal of Medicine, 2011, 365 (6), 493–505.
表a 実験5：Writing Group for the Women’s Health Initiative Investigators and Others, “Risks and Benefits of Estrogen plus Progestin in Healthy Postmenopausal Women: Principal Results from the Women’s Health Initiative Randomized Controlled Trial,” Journal of American Medical Association, 2002, 288 (3), 321–333.
表b 実験1：Haushofer, Johannes and Jeremy Shapiro, “The Short-term Impact of Unconditional Cash Transfers to the Poor: Experimental Evidence from Kenya,” Quarterly Journal of Economics, 2016, 131 (4), 1973–2042.
表b 実験2：Sherman, Lawrence W and David Weisburd, “General Deterrent Effects of Police Patrol in Crime “Hot Spots”: A Randomized, Controlled Trial,” Justice Quarterly, 1995, 12 (4), 625–648.
表b 実験3：Angelucci, Manuela and Daniel Bennett, “Adverse Selection in the Marriage Market: HIV Testing and Marriage in Rural Malawi,” Review of Economic Studies, 2021, 88(5), 2119-2148.
表b 実験4：Baicker, Katherine, Sarah L Taubman, Heidi L Allen, Mira Bernstein, Jonathan H Gruber, Joseph P Newhouse, Eric C Schneider, Bill J Wright, Alan M Zaslavsky, and Amy N Finkelstein, “The Oregon Experiment — Effects of Medicaid on Clinical Outcomes,” New England Journal of Medicine, 2013, 368 (18), 1713–1722.
表b 実験5：Bo, Ernesto Dal, Frederico Finan, and Martın A Rossi, “Strengthening State Capabilities: The Role of Financial Incentives in the Call to Public Service,” Quarterly Journal of Economics, 2013, 128 (3), 1169–1218.（この実験における対照群は低賃金の求人）

参考文献

Angrist, J. and Imbens, G. W. (1991) “Sources of Identifying Information in Evaluation Models,” NBER Technical Working Paper.
Chassang, S., Miquel, G. P. I. and Snowberg, E. (2012) “Selective Trials: A Principal-Agent Approach to Randomized Controlled Experiments,” American Economic Review, 102(4): 1279-1309.
Eisele, D. W,, Richtsmeier, W. J., Graybeal, J. C., Koch, W. M. and Zinreich, S. J (1994) "Three-dimensional Models for Head and Neck Tumor Treatment Planning," Laryngoscope, 104(4), 433-439.
Hu, F. and Rosenberger, W. F. (2003) “Optimality, Variability, Power: Evaluating Response-adaptive Randomization Procedures for Treatment Comparisons,” Journal of the American Statistical Association, 98(463): 671-678.
Hu, F. and Rosenberger, W. F. (2006) The Theory of Response‐Adaptive Randomization in Clinical Trials, Wiley.
Kremer, M., Leino, J., Miguel, E. and Zwane, A. P. (2011) “Spring Cleaning: Rural Water Impacts, Valuation, and Property Rights Institutions,” Quarterly Journal of Economics, 126(1): 145-205.
Lei, H., Nahum-Shanti, I., Lynch, K., Oslin, D. and Murphy, S. A. (2012) “A "SMART" Design for Building Individualized Treatment Sequences,” Annual Review of Clinical Psychology, 8, 21-48.
Murphy, S. A. (2003) “Optimal Dynamic Treatment Regimes,” Journal of the Royal Statistical Society. Series B (Statistical Methodology), 65(2): 331-366.
Nahum-Shani et al. (2012) “Experimental Design and Primary Data Analysis Methods for Comparing Adaptive Interventions,” Psychol Methods, 17(4), 457-477.
Narita, Y. (2021) “Incorporating Ethics and Welfare into Randomized Experiments,” Proceedings of the National Academy of Sciences, 118(1).
Orellana, L. and Rotnitzky, A. (2008) “Estimation and Extrapolation of Optimal Treatment and Testing Strategies,” Statistics of Medicine, 27(23): 4678-4721.
Pelham, W. E. et al. (2015) “Treatment Sequencing for Childhood ADHD: A Multiple-Randomization Study of Adaptive Medication and Behavioral Interventions,” Journal of Clinical Child & Adolescent Psychology, 45(4), 396-415.
Wei, L. and Durham, S. (1978) “ The Randomized Play-the-winner Rule in Medical Trials,” Journal of the American Statistical Association, 73(364): 840-843.
Zelen, M. (1969) “Play the Winner Rule and the Controlled Clinical Trial,” Journal of the American Statistical Association, 64(325): 131-146.
Zelen, M. (1979) “A New Design for Randomized Clinical Trials,” New England Journal of Medicine, 300(22): 1242-1245.