エビデンスに基づく医療(EBM)探訪

開催日 2017年3月31日
スピーカー 関沢 洋一 (RIETI上席研究員・研究コーディネーター(政策史担当))
コメンテータ 木村 もりよ (医師/医療法人財団綜友会医学研究所所長)
モデレータ 小西 葉子 (RIETI上席研究員)
ダウンロード/関連リンク
開催案内/講演概要

世の中では様々な医療行為や健康増進活動が行われていますが、これらは本当に効果があるのでしょうか。また、効果がある場合には、どの程度の効果があるのでしょうか。この点について、信頼できるデータを統計学的手法によって分析することによって検証して、人々の適切な意思決定に役立てようとする、エビデンスに基づく医療(Evidence Based Medicine, EBM)が世界的に広がっています。このBBLでは、RIETIの上席研究員である関沢が、EBMについて英語で書かれた論文を中心にいろいろと調べた結果を報告します。取り上げる主なテーマは、EBMとはどのようなものか、健康診断やがん検診は効果があるのか、高血圧はどの程度危険か、になります。報告内容については、医師である木村もりよ氏からコメントしてもらいます。

議事録

エビデンスに基づく医療(EBM)概観

関沢洋一写真EBM(Evidence Based Medicine)とは、医療行為や健康増進活動に関わる意思決定を行うに当たって、エビデンス、言い換えると信頼できるデータに裏付けられた根拠、を重視しようというアプローチです。EBMは医学と統計学が交錯する概念で、登場したのは比較的新しく、明確に打ち出されたのは1992年です。

EBMの世界では、統計学を使った解析なら何でもエビデンスがあるというわけではありません。最も尊重されるエビデンスはランダム化比較試験(RCT)のシステマティックレビューです。偉い先生の意見や体験談は、RCTなどで裏付けられない限り、エビデンスとしては尊重されません。

RCTでは、ある介入行為を行うグループと行わないグループをランダムに分けて介入行為の効果の有無を検証します。たとえば、コイントスによって、健康診断を受ける人と受けない人を決めて、効果を比べる実験的な手法です。健康診断を受けている人と受けていない人のデータをただ集めて統計解析を行ってみて、健康診断を受けている人の方が長生きするという結果が出ても、健康診断を受けている人の方が教育水準や所得が高かったり、健康志向が強かったりして、それが長生きに結びついているかもしれず、健康診断を受けていることが長寿につながっているかどうかはわかりません。そこで、RCTでは、健康診断を受ける人と受けない人をコイントスに似た偶然によって決めることによって、グループ間に差が生じないようにして、バイアスのかからない分析ができるようにします。

システマティックレビューとは、特定の問題について取り上げたRCTを集めてきて、全体としてどのような結果となるかを示すアプローチです。たとえば、降圧剤の効果を検証したRCTを集めてきて、全体として降圧剤がどの程度効果があるかを検証します。関係するRCTを取り上げるに当たって、自分の望む方向性にあった研究だけを選ぶような我田引水的なレビューにならないよう、分析対象となるRCTを選ぶルールをあらかじめ設けてそれを公表することで、公平さを担保します。代表的なシステマティックレビューとしてコクランレビューがあります。

リスクには、絶対リスクと相対リスクという概念があります。たとえば、最近発表されたHOPE-3という降圧剤の効果を検証したRCTでは、降圧剤を服用する人と服用しない人をランダムに分け、約5.6年間の脳卒中の発生確率を見たところ、服用した人が1.15%、服用しなかった人が1.48%という結果が出ました。その比(相対リスク:RR)は0.79なので、服用したことで脳卒中の発生リスクが21%減ったことになります。

ただ、95%信頼区間(同じ研究を行うと95%の確率でこの範囲に入るだろうと思われる上限と下限)が、0.58〜1.09になります。この範囲に1を含んでいるということは、同じような研究を行った場合に、効果がない(RR=1)、あるいは、降圧剤の服用によってかえって悪い結果になる(RR>1)になる場合があり得ることを示します。そのため、95%信頼区間に1を含んだ今回の研究結果は、脳卒中の発生リスクが下がったのが偶然かもしれないということで、統計学的に有意差がなく、効果がなかったと判定されます。

健康診断やがん検診は寿命を延ばすか

コクランレビューで、もともとの症状がない人々を対象とした健康診断の効果を検証しています。総死亡率(あらゆる原因による死亡率)について9件のRCT、がんと循環器疾患について8件のRCTを使ってメタ解析したところ、健康診断が総死亡率を減らすことはありませんでした。がんや循環器疾患についても同じような結果になりました。

コクランレビューは信頼度の高いレビューと言われていますが、この検証に関しては使われたRCTの大部分が1980年以前のもので、その後に高脂血症の薬であるスタチンが登場したこともあって、最近の医療の進歩を反映していないのではないかという議論があります。

ただ、コクランレビューの結果を支持するデンマークで行われたRCTがあります。1999年に始まったこのRCTでは、健康診断を受ける群と受けない群にランダムに分けて、健康診断を受ける群には健診に加えて生活習慣についてアドバイスを行い、10年間追跡しました。その結果、介入群と非介入群の間に総死亡率などで有意差はなく、健康診断と生活指導を組み合わせた取り組みは効果がなさそうだという結論になっています。

乳がんについては、マンモグラフィの効果についてのRCTがいくつか行われています。これらをまとめたコクランレビューによると、質の低い研究も含めた場合には、乳がんによる死亡率の相対リスク(RR)は0.75で、25%の有意な減少が見られましたが、他のがんによる死亡率が有意に高くなり、死因の判断においてバイアスがかかっていることが疑われました。そこで、がん全体の死亡率や総死亡率がマンモグラフィによって減るかどうかを検証したところ、いずれも有意な低減効果が見られませんでした。

マンモグラフィによる乳がん検診に関するコクランレビューの結論は次のとおりになっています。マンモグラフィによって乳がんによる死亡率が15%減るとして、過剰診断と過剰治療が30%あるとすると、2000人の女性が検診を10年間受けた場合、1人は亡くならずに済みますが、10人が不必要な治療を受けることになり、200人以上が偽陽性で再検査となり、心理的苦痛を経験することになります。

その他のがんでは、アメリカで行われた大規模な研究で、胸部X線写真による肺がん検診について、肺がんの死亡率を減らす効果はなかったと判断されました。また、コクランレビューで胸部X線写真を頻繁に行った群と行わなかった群を比べたメタ解析では、頻繁に行った群の方が、肺がんによる死亡が多くなる傾向が見られました。ただし、このレビューでは、メタ解析に含まれる研究の中に潜在的に方法論上の弱点を有するものがあるという留保が付けられています。

大腸がんの便潜血検査については、コクランレビューにおいて、大腸がんの死亡率を減らす効果が認められました。ただ、総死亡率を減少させる効果は認められませんでした。胃がんの検診については、欧米で胃がんがかなり少なくなっているためだと思いますが、胃がんの検診の効果を検証したRCTはないようです。

胸部CTスキャンは、アメリカで行われたNLSTという大規模なRCTによれば、肺がんの死亡率を20%減らし、有意な低減効果がありました。総死亡率も6.7%減少しており、これも有意な減少になっています。この研究は総死亡率を減少させた研究として日本でも有名になりました。

ただ、このRCTについては注意すべき点がいくつかあります。1つ目はこのRCTはがん検診を受けた人と受けなかった人を比べたのではなく、2つのがん検診を比べているため、厳密にはCTスキャンの効果を検証したものとはいえない点です。

2つ目は、対象者が肺がんリスクの高い喫煙者である点です。この研究は、たばこを1日20本、30年間吸い続けた人々を対象にしたがん検診で、研究期間中に亡くなった方々の死亡原因の24%が肺がんでした。日本人男性が肺がんで亡くなる割合は約8%なので、それに比べても相当高い数字です。したがって、これを一般の人たちに当てはめるのは難しそうです。

3つ目に、CTスキャンを受けた群では偽陽性が多く、3回この検診を受けると39.1%の人が1回は再検査になります。これでは心理的にかなり苦痛になります。

がん検診に効果があるかどうかについては、3つの評価の仕方があり得ます。検診の対象である特定のがんによる死亡率を減らすかどうか、がん全体による死亡率を減らすかどうか、総死亡率を減らすかどうか(寿命を延ばすかどうか)です。

既存のがん検診のほとんどにおいては、特定のがんの死亡率が減ることは示されても、寿命が延びることは示されません。数年以内に亡くなる人々の割合は少なく、また、亡くなった人々の間でも特定のがんで亡くなる人々は割合としては少ないために、数千人、数万人単位の検証では被験者数が少な過ぎてがん検診による総死亡率の減少の検証ができないからです。総死亡率の減少を検証するためには百万人以上が参加したRCTが必要だという指摘もあります。

その一方で、特定のがんの死亡率の減少によってがん検診の効果の有無を判断することには問題があります。先程述べたマンモグラフィの例のように、がんが転移したために、本当は乳がんによる死亡だと判断すべき時に他のがんによる死亡だと誤って分類される場合があり、この場合、乳がんによる死亡率だけを検証すると、がん検診の効果を過大評価することになります。また、がんだと診断されるだけで自殺や循環器疾患による死亡が増えるという研究があります。そうすると、がん検診によって他の要因による死亡が増えてしまったかもしれないのに、そこが見えなくなる可能性があります。従って、本来はがん検診の効果は総死亡率で見るのが望ましいのですが、既に述べたとおり、実際にはそれは難しくなっています。

結局、がん検診が本当の意味で効果があるか、つまり、寿命を延ばすかどうかはよくわかりません。その一方で、がん検診については、過剰診断や偽陽性という問題があります。

ダートマス大学のウェルチ教授によると、がんにはウサギとカメと鳥の3種類があります。カメは進行スピードが遅いために治療する必要がないがん、鳥は進行スピードが速過ぎて治療をしても無駄ながん、ウサギは治療することに意味のあるがんです。

カメのがんは治療する必要はありませんが、発見されることで不必要に治療されてしまうという問題があります。ただ、今の医療では検診によって発見された早期のがんがウサギかカメかが分かりません。つまり、がんが見つかってしまったら、リスクがあると判断して結局は治療してしまいます。そうすると、カメのがんの場合には、患者が治療して治ったと勘違いしてしまい、過剰診断というがん検診の弊害が便益だと誤解されてしまいます。

この問題について、経済的コストをチェックした研究があります。乳がんについて、偽陽性、侵襲性がん、非浸潤性がんのそれぞれのコストは852ドル、5万1837ドル、1万2369ドルで、偽陽性の発生率が11%、侵襲性がんと非浸潤性がん(DCIS)の過剰診断の割合がそれぞれ22%、86%だとすると、偽陽性と過剰診断の米国全体におけるコストが毎年40億ドルと試算されています。

ウェルチらの試算では、10万人中、マンモグラフィで追加的にがんが発見される人数が162人だとすると、そのうち本当に問題のあるがんになるのは30人で、残りの132人は過剰診断となります。

高血圧はどの程度危険か

浅山敬先生らの観察研究によると、血圧が高ければ高いほど循環器疾患(脳と心臓の血管に関する病気をまとめたもの)による死亡リスクが増えることがわかります。また、降圧剤を服用していない人よりも服用している人のリスクの方が高く、血圧が同じでも、降圧剤による治療を受けている人の死亡リスクは、受けていない人よりも高くなっています。つまり、降圧剤によって血圧をもともと血圧の低い人々と同じレベルに下げても、もともと血圧の低い人々のレベルまではリスクが下がらないことになります。

この場合のリスクは降圧剤による治療を受けている人々と受けていない人々の間の相対リスクなので、一定年数内に重大な疾患が発生する確率である絶対リスクはわかりません。絶対リスクについてシミュレーションした八谷寛先生らの研究があり、たとえば、50歳で血圧が170で、血圧以外は特に問題のない男性が10年以内に心筋梗塞や突然心臓死からなる冠動脈疾患を発症する確率は1.4%になっています。ところが、降圧剤を服用している男性は、同じ確率が、血圧が135で1.7%、血圧が150で1.8%となっており、この結果だけを見ると、降圧剤を服用してもかえってリスクが上がるように見えます。

ここまでで見た研究は介入行為を行わない観察研究で、EBMの世界ではRCTよりも信頼度は下がるとされます。従って、これらの研究から降圧剤に効果がないと判断することは適切ではありません。その一方で、これらの研究の結果からは、血圧の高い人に重大疾患が発生するリスクは高いとは言えますが、ここからだけでは高血圧と重大疾患の間に因果関係があるかどうかはよくわかりません。強いストレスなどの重大疾患のリスク要因があったときに、ストレスが血圧を上げて、血圧が上がったから重大疾患になっているという因果関係があれば、血圧を下げると重大疾患は減るはずですが、もしも高血圧と重大疾患の間に相関関係しかなければ、血圧を下げるだけでは重大疾患は減りません。これを明らかにするには実際に血圧を下げてみるしかなく、RCTによる検証が必要です。

複数のRCTの結果をまとめたメタ解析から推測すると、降圧剤によって血圧を10mmHg下げると、主な循環器疾患が20%、脳卒中は27%、総死亡率は13%それぞれ減って、全て95%信頼区間に1が含まれておらず、有意に減少しています。これがおそらく降圧剤の効果に関する標準的な判断だと思います。

仮に冠動脈疾患の10年間の発生確率が降圧剤を飲まない場合で1.4%だとすると、降圧剤の服用で冠動脈疾患は17%減少するので、発生確率が1.4%から1.16%へと0.24%減ります。脳卒中についても同様の計算をすると0.94%減ります。

ただ、このような計算は不正確かもしれません。降圧剤のRCTでは被験者を相当厳密に管理しています。ところが、治療現場では、薬の服用をやめてしまったり、最適な薬を出せなかったりして、RCTの理想から離れている可能性があります。もしかしたらRCTよりも観察研究の方が現実に近いかもしれません。

それから、古い研究には問題があるかもしれません。一例として、高脂血症の薬であるスタチンについての最近の研究で、2005年ごろの欧米における臨床研究の規制強化の前後で、研究の質が違うことが指摘され、規制強化以前の古い研究は信頼度が低いと指摘されています。また、認知行動療法という心理療法のうつに対する効果を検証したメタ解析では、新しい研究ほど効果が減っていくという報告があります。

もしかしたら、降圧剤についても同じことがあるのではないかという問題意識が私にはあって、最近発表された網羅的なメタ解析のデータを使い、実際に自分でもメタ解析をしてみました。それによると、2006年以降の新しい研究では相対リスクが概ね0.9台になって有意差もない場合が多くなっています。つまり、トレンドとして見ると、古い研究に比べて新しい研究の方が、降圧剤の効果が減っているように見えます。もしかしたら、このような結果になったのは、規制の少なかった古い研究では、効果が小さいものは公表されなかったものが多かったからかもしれません。最近は臨床研究に対するチェックが厳しくなっていて、効果が小さかったりなかったりした研究を公表しないことが許容されにくくなっています。その結果、古い研究ほど数字が良く見えるのかもしれません。ただ、きちんとした分析が行われたわけではないので、本当のところはよくわかりません。最近、医療の費用対効果の検証をすべきという議論がありますが、高血圧についてこの議論をする場合には、降圧剤の効果をできる限り正確に知る必要があり、その意味ではここで提起した問題はとても重要です。ただ、これをきちんと研究することは私の能力を超えているので、どこかでしっかりした形で研究されることを期待しています。

エビデンスに基づく医療がハイジャックされている?

EBMが始まってから20年以上が経ちましたが、エビデンスとして示されたものを安易に信じてはいけないことを示すいくつかの問題が明らかになっています。その1つは公表バイアスです。臨床研究の結果は全て公表されているわけではなく、介入行為に効果がなかった研究など研究実施者にとって望ましくない研究は表に出ない傾向があります。たとえば、抗うつ薬について、アメリカ食品医薬品局(FDA)には全ての研究が登録されることになっていることを利用して行った研究では、抗うつ薬の効果についての74の研究のうち、効果があったとする研究は38あって、そのうち37個は公表され、公表されなかったのは1個でした。一方、効果がない研究は36個あって、そのうち公表されたのは14個で、22個は公表されませんでした。効果がない研究で公表されたもの14個のうち、3つは効果がないと報告していましたが、11個は効果があるかのような報告をしていました。公表された研究だけを取り上げてメタ解析を行った場合には、結果にバイアスがかかってしまい、本当は抗うつ薬全体では効果がなかったり効果が小さい場合であっても、効果があるとされたり効果が水増しされてしまう恐れがあります。

ただ、公表されていない研究があることを外部の人が知ることは難しく、公表バイアスを正確に把握することは困難です。この問題に対処するため、最近は臨床研究を行うに当たって事前に登録することが求められていて、登録しない研究は主要な医学ジャーナルでは掲載できなくなっています。

EBMを巡るもう1つの問題は、企業がスポンサーになった臨床研究は、その企業の製品に有利な結果が出やすいことです。企業にとって自社の製品を良く見せようとするインセンティブがあるのは避けられないことですが、これが臨床研究に反映されてバイアスのかかった結果を生むと、その製品のユーザーである患者にとって望ましくありません。理想的には公的資金による中立的な臨床研究が増えるべきですが、アメリカの臨床研究を登録件数で見ると、国立衛生研究所(NIH)が資金拠出した独立性の高い研究が減少し、企業が資金を出した研究が増えており、事態は悪化しています。

さらにもう1つの問題として、メタ解析が適切に行われていないことが挙げられます。メタ解析は本来、分析の対象となる研究の選び方や分析方法を事前に決めた計画(プロトコルと呼ばれます)に従って行うのが原則です。メタ解析の結果を見てからプロトコルを変えて解析をやり直すと自分に都合が良い結果がでやすくなるので、事前にプロトコルを作って、個々の研究を探すための検索方法も事前に決めるのが望ましいです。しかし、現実には、メタ解析の対象となるRCTのほとんどは既に行われていて結果がわかっているので、取りあえず誰にも知らせないでメタ解析を一度やってみて、自分の都合のいいようにプロトコルを作ることもやろうと思えばできます。

以上のとおり、メタ解析でさえ信用が置けなくなってしまい、エビデンスに基づく医療が本来の目的から乖離して、広告代わりに使われてしまうリスクがあります。ある研究者の言葉を借りると「エビデンスに基づく医療がハイジャックされている」状態になっています。

最後に、今回の発表を踏まえた私なりの結論を述べます。第1に、症状がない人への医療による介入は効果が低いので、縮小した方がいいと思います。次に、予防活動は特定の疾患や臓器を対象にするよりも、全体的な取り組みを目指した方がいいと思います。たとえば、適度な運動は、循環器疾患のリスクを減らすだけでなく、うつ病の予防につながることが期待されます。個々の医者に依存することのない公衆衛生的な取り組みを強化し、喫煙、飲酒、塩分摂取に関する国を挙げての取り組みを推進することが期待されます。

健康診断やがん検診については、プラス面・マイナス面の双方があるので、これらを受けるかどうかについて、これまで以上に自己責任や自己決定を尊重した方がいいと思います。

また、運動や特定の食事法、瞑想を主体とするマインドフルネスによって、いろいろな疾患が減らせると言われていますが、RCTが少なく、確定的な答えが出ていません。これらに関するRCTを積極的に行い、効果があるとわかれば国民にその実践を推奨すれば、医療費削減につながると思います。

それから、「高血圧は危険だ」と抽象的に言うのは恐怖心をあおるだけで冷静な判断の妨げになります。高血圧だと5年以内に循環器疾患が発生するリスクは▲%で、降圧剤の服用によって、そのリスクが●%減るというように、もう少し定量的な説明をしていく必要があると思います。加えて、数字自体の信頼性も吟味する必要があります。

最後に、何をやっても不確実性は残ります。何が何でもリスクをゼロにするというのは無理があります。そして、何をやっても、人間はいつか死にます。これらのことを100%受け入れるのは難しいとしても、念頭には置いていかないと、医療にとにかく頼ろうとする態度が改めることはなく、医療費の大幅な削減は難しくなると思います。

コメンテータ:
データを用いて比較検討することは、医療や保健の分野で今最も大切なことだと思います。社会保障費がこれだけ伸び、医療と介護の問題がクローズアップされる中、わが国は健康診断を法律上で規定している世界に類を見ない国です。しかし、医療データの活用に関しては世界から非常に遅れを取っています。たとえば、健康診断のデータは、いったん受診者に伝えられると、多くの場合には一定年数が経つと捨てられてしまいます。本当はとても貴重なデータなのにです。きちんとしたデータに基づいて効果の有無をきちんと解析しないことによって、本当の効果を客観的に明らかにできないことになります。

現状、日本の医療は個人と医師の関係で終わってしまっていますが、社会保障を考えた場合、医療・保健における効果は、患者にとってばかりではなく、その集団にとって効果があるかどうかを知らしめることが非常に重要です。残念ながら、日本は厚生労働省も含めてこのコンセプトが抜け落ちてしまい、治るか治らないかという問題だけになってしまっています。

たとえばインフルエンザで人が亡くなることばかりが話題になりますが、10人のうち1人が死んだのか、100万人のうち1人が死んだのかによって、社会的インパクトは大きく異なります。しかし、臨床医の場合、患者1人が亡くなることは、10万体の1人であろうが、10体の1人であろうが変わりありません。その棲み分けをはっきり理解しなければならないと思います。

そのために、RCTやさまざまなメガデータの活用に国としてもっと取り組まなければ、何が効果があるのか、どこの集団にターゲットを向ければいいのかが全く分からないまま、取りあえずやってみようという話になってしまいます。ですから、データからエビデンスを得ることは絶対に必要だと思います。

たとえば、乳がん検診を男性に積極的に行ってもほとんど意味がありません。ところが、ごくまれではあるものの、男性でも乳がんになる人はいるので、リスクがゼロではないというだけで、男性にまで乳がん検診を行うという極論に走ってしまうのです。本来ならリスクの高い人々のために医療資源は投入されるべきなのに、ハイリスクではない人たちにまで多くのお金をかけてしまって、得られる効果が非常に少なくなってしまいます。

こうした議論は、医師対患者の1対1の関係だけでは絶対に済みません。経済や統計学などの専門の方々が本気で話していかないと、社会保障費をどうやって食い止めればいいかという議論には到底到達できないという危惧を覚えています。

質疑応答

Q:

医薬品や医療機器は厚生労働省の認可を受けた上で市場に出回っているので、効果があることは検証済みではないのですか。

A:

たとえば、厚生労働省が降圧剤について認可を出すときに、寿命を延ばしたり心臓疾患を減らしたりする効果をチェックしているわけではありません。血圧が下がったかを見ています。血圧を下げれば疾患が減るという仮説に立った上で、血圧が下がりさえすればその降圧剤には効果ありと判断しています。

コメンテータ:

効果の判定は非常に難しく、因果関係を議論するのは非常に大変なことだと思います。血圧を10mmHg下げれば、死亡率が10%下がるという因果関係を得るには、非常に長い間をかけたRCTが必要です。

Q:

健康で長生きすることを数値化することはなかなか難しいと思います。これについて何か示唆があれば教えてください。

A:

たとえば、認知機能については、MMSE(Mini Mental State Examination、MMSE)という評価指標があります。また、IADL(手段的日常生活動作能力)という身体機能などを測る指標があります。こういった指標を活用すれば、ある程度の数値化は可能です。

Q:

今後どのようなデータを集めると役立ち得るのでしょうか。

A:

まず、健保組合などが集めた健康診断のデータを簡単に捨てない方がいいと思います。数年経つと重要なデータになります。次に、測り方次第で血圧が変わるなど、健診の測定方法に違いがあると比較が難しくなるので、健診の標準化も必要です。ただ、健診データだけあっても、死亡や重要疾患のリスクは検証できないので、死亡データや重要疾患のデータを健診データとつき合わせることができるようにしておくことも必要だと思います。

コメンテータ:

厚生労働省にも膨大な医療データがありますが、そのほとんどがあまり活用されていません。恐らく国でも把握し切れていないと思うので、まず使えるデータがどこにあるのかをマッピングしなければ、話は始まらないと思います。

それから、大企業には健保組合があり、健康保険のデータやレセプト、支払いに関するデータがあります。私たちは生きている以上、働いていますし、家庭環境やメンタル疾患などの問題もあります。世界保健機構(WHO)も経済格差は医療格差を生むことを明示しており、給与が高い人の健康度が高いことは周知の事実です。このように、医療データ以外にも、私どもが今まで健康に関係ないと思っていたような人事や給与、働き方などの包括的なデータを見て判断することが重要だと思います。

この議事録はRIETI編集部の責任でまとめたものです。