エビデンスに基づく医療(EBM)探訪

第4回「がん検診は効果があるか?」

関沢 洋一 上席研究員

がん対策基本法によれば、国民は「必要に応じ、がん検診を受けるよう努める」ことになっている(第6条)。また、国や地方公共団体は、「がん検診の受診率の向上に資するよう、がん検診に関する普及啓発その他の必要な施策を講ずるものとする」となっている(第14条)。ここまで法律で明確に書かれている以上、がん検診を受けるのはいいことで、がん検診が望ましい効果をもたらすことについて十分なエビデンスがあるように思えるが、実際にそうなのだろうか。がん検診の効果はどこまで検証されているのだろうか。

1. 前提となる基本的な知識

少々回り道になるが、エビデンスの強さの順番と基本的な統計知識があった方が本稿での議論がわかりやすくなるので、それらに簡単に触れておく。

(1)エビデンスの強さの順番

エビデンスに基づく医療(EBM)の世界では、さまざまな研究のタイプによって、エビデンスには強さの順番があって、図1に示したピラミッドの上から下に向かってエビデンスの強さが低下する[1]。

図1:エビデンスの強さの順番
図1:エビデンスの強さの順番
(出典)Grenhaigh[1, p.18]より作成

上から2番目に強いエビデンスとされるランダム化比較試験(Randomized Controlled Trial, RCT)では、研究参加者をある介入行為を行う群と行わない群にランダムに分けて、介入行為の効果の有無を検証する。がん検診を例に取ると、がん検診を受診している人と受診していない人では、所得、教育水準、食事の傾向など多くの重要な点で異なっているかもしれない。このため、がん検診を受けている人と受けていない人のデータを取得して分析してみて(これが観察研究の例)、その結果、仮に、がん検診を受けている人々の方ががんによる死亡率が低いとしても、受診者と非受診者の違いが、受診の有無によるものなのか、他の要因によるものなのかの見極めが難しい。そこで、研究に参加してくれる人々をコイントスに似た手続きで、ランダムに受診群と非受診群に分ける。そうすると、がん検診を受診したか否か以外では2つの群は似たようなものになり、がん受診の効果の信頼できる検証が行えるようになる。これがRCTである。

エビデンスが最も強いとされるRCTのシステマティックレビューは、あらかじめ決められた検索手法によって、特定のテーマ(たとえば、乳がんのマンモグラフィによる検診)についてのRCTを抽出して評価する。検索方法をあらかじめ決めることなどにより、自分に都合の良い研究だけが選ばれにくくなる。抽出された複数の研究は、メタ解析という統計学的手法を使って、複数の研究の効果を束ねた結果を明らかにすることがしばしばなされる。システマティックレビューの代表的なものとして、コクラン・システマティックレビューがあり、本稿ではできる限りこのレビューの結果を掲載することにしたい。

(2)基本的な統計知識

表1は、胸部X線検査による肺がん検診を毎年受ける人と受けない人にランダムに分けて、肺がんによる死亡率の差があったかどうかを比較したRCTの結果である[2]。この研究では、15万4901名が7万7445名の検診群、7万7456名の非検診群にランダムに分けられ、前者のみが4年間にわたって毎年検診を受けた。13年後のフォローアップの結果が表1に掲載されており、検診を実施した群では肺がんによる死亡者数は1213名で、検診を実施しなかった群では肺がんによる死亡者数は1230名だった。

表1:胸部X線検査による肺がん検診の受診者・非受診者の肺がんによる死亡について
曝露あり
(検診を実施)
曝露なし
(検診不実施)
結果発生あり
(肺がんによる死亡)
a(1213) b(1230)
結果発生なし c(76232) d(76226)
合計 a+c(1213+76232=77445) b+d(1230+76226=77456)
(出典)Oken et al. [2]に依拠した。

下記の式にあるとおり、検診を受けた群における肺がんによる死亡率は1.57%で、受けなかった群における肺がんによる死亡率は1.59%となっている。これらの数値が絶対リスクと呼ばれる。前者を後者で割った数値が相対リスク(Relative Risk, RR)と呼ばれるもので、この場合、下記の式にあるとおり、相対リスクは0.99になる。1 - 0.99 = 0.01が介入(この場合は胸部X線検査)によるリスクの減少幅で、この場合は検診受診によって肺がんによる死亡リスクが0.01(=1%)減ることになる。

式

次に、95%CI(95%信頼区間)について触れる。仮に、今回と同じ設定で同じようなランダム化比較試験を行っても、全く同じ結果にはならず、実際の相対リスクは異なった数字になる。しかし、95%の確率で一定の範囲内に収まる数値があり、その上限と下限を示した数値が95%CIとされる。この例では下限が0.91、上限が1.07となる[3]。RR(95% CI)が0.99(0.91〜1.07)と表記される。統計学的な有意差を考慮しなければ、相対リスク(RR)が1を下回れば効果あり、1以上だと効果がないことになるが、95%CIに1が含まれると有意差なし(偶然であることを否定できない)とされ、統計学的に有意な減少が見られないとして、効果がなかったと扱われる。この表のケースでは、相対リスクは1%減少だが、95%CIに1が含まれるので、胸部X線検査は肺がんによる死亡を減少させる効果がないと判断されることになる。

2. がん検診の効果についての研究

以下では、大腸がん、胃がん、乳がん、肺がんの検診について調べた結果を報告する。

(1)大腸がんの検診

コクランレビューによると、大腸がんの便潜血検査については、大腸がんによる死亡率を減少させる効果が認められた(RR 0.86, 95%CI 0.80〜0.92)。相対リスク(RR)は0.86なので、1 - 0.86 = 0.14で、大腸がんによる死亡率は14%減少する。95%CIは0.80から0.92までで1が含まれないので、統計学的にも有意な減少が見られたことになる。これに対して、総死亡率(あらゆる原因による死亡)を減少させる効果は認められなかった(RR 1.00, 95%CI 0.99〜1.01)[4]。

軟性S状結腸鏡検査(flexible sigmoidoscopy)については、大腸がんによる死亡率を減少させる効果が認められ(RR 0.72, 95%CI 0.65〜0.79)、総死亡率の減少は認められなかった(RR 0.98, 95%CI 0.95〜1.01)[4]。ちなみに、軟性S状結腸鏡検査は内視鏡検査(colonoscopy)とは別のもので、内視鏡検査と異なって大腸全体を観察することはできないのだそうだが、カバーする範囲の大きい内視鏡検査の方が効果があるというエビデンスはないそうだ[5]。内視鏡検査のRCTはまだ進行中で結果は出ていない[6]。

(2)胃がんの検診

胃がんの検診については、欧米では患者数が少ないためか、ランダム化比較試験による効果検証がないようだ。つまり信頼できるエビデンスがないことになる。

(3)乳がんについてのマンモグラフィによる検診

コクランレビューによると[7]、適切なランダム化を経た3つの研究は、13年後のフォローアップにおいて、乳がんによる死亡率を減少させる有意な効果が見られなかった(RR 0.90, 95%CI 0.79〜1.02)。準最適なランダム化を経た4つの研究も含めた7つの研究によるメタ解析では、乳がんによる死亡率が有意に低下するが(RR 0.81, 95%CI 0.74〜0.87)、乳がんをアウトカム指標とする結果は信用できないとしている(他のがんによる死亡率が有意に高くなり、死因の判断におけるバイアスが疑われる)。ランダム化の適切さなどで質の高いRCTと認められた研究によるメタ解析の結果、マンモグラフィは10年後のがんによる死亡率(RR 1.02, 95%CI 0.95〜1.10)や13年後の総死亡率(RR 0.99, 95%CI 0.95〜1.03)を低減する有意な効果がなかった。

(4)肺がん検診

① 胸部X線検査
表1で示したとおり、4年間にわたって毎年胸部X線検査による検診を実施した群は、実施しなかった群に比べて、13年後の肺がんによる死亡率を減らす効果が認められなかった(RR 0.99, 95%CI 0.91〜1.07)[2, 3]。

コクランレビューによると、胸部X線検査による検診を頻繁に行った群と頻繁に行わなかった群で比べたメタ解析では、頻繁に行った方が肺がんによる死亡が多くなる傾向が見られた(RR 1.11, 95%CI 1.00〜1.23)[3]。ただし、含まれる研究の中に潜在的に方法論上の弱点を有するものがあると指摘されていることに注意する必要がある。

② CTスキャン
肺がんの早期発見を目的とするCTスキャンの効果について、アメリカの大規模研究(NLST)[8]で、CTスキャンと胸部X線検査の比較を行っている。これによれば、CTスキャンが胸部X線検査に比べて肺がんによる死亡率を20%減らし(95%CI 6.8〜26.7)、総死亡率を6.7%減少させることが示されている(95%CI 1.2〜13.6)。この研究は、がん検診に関するRCTの中で、総死亡率の減少が示された数少ない研究として話題になった。

ただし、この研究(特に総死亡率に関する部分)の結果を一般化することについては少し慎重になった方がいいかもしれない。第1に、この研究は、CTスキャンの効果を非検診群との比較で検証しておらず、2つの検診の比較である。本当はCTスキャンを受けた人と何の検査も受けなかった人で比べた方がいいのかもしれないが、表1で掲載した研究で、胸部X線検査の受診者と非受診者の間で結果に差がなかったために、胸部X線検査の受診者とCTスキャンの受診者で比べることにして差し支えないと判断されたようだ[8]。ただ、上記のコクランレビューのように、胸部X線検査による検診を頻繁に受けるとかえって問題が生じる可能性もあることもあり、非検診群との比較をすべきだという指摘がある[9]。

第2に、この研究では対象者が肺がんリスクの高い喫煙者となっている。30 pack yearsとなっており、20本入りの箱を毎日1箱30年間吸い続けた人が対象となっている。期間中に亡くなった人の死亡原因に占める肺がんの割合はCT群では19.0%(=356/1877)、X線群では22.2%(=443/2000)となっている。後で出てくる表2で示したように日本人男性では全体の死亡原因に占める肺がんの割合は8%となっており、NLSTの被験者の肺がんによる死亡割合が高いことがわかる。肺がんによる死亡割合が高ければ、総死亡率の減少について有意な効果がでやすくなる。特定のがんによる死亡割合は通常はこれほど大きくないだろうから、がん検診のRCTの多くでは、総死亡率の減少について有意な効果はでないだろう。

第3に、この研究における総死亡率の減少は偶然に左右された可能性がある[9]。この研究では、肺がんによる死亡者数がCT群で356人、X線群で443人、総死亡者数がCT群で1877名、X線群で2000名なので、肺がん以外による死亡者数は、CT群で1877-356=1521人、X線群で2000-443=1557人で、X線群の方が多く、相対リスクが0.98なので、CT群の方が肺がん以外の死亡率が2%少なくなっている。肺のCTスキャンに肺がん以外による死亡を減少させる効果がないと仮定し、X線群と同じ割合で肺がん以外の原因による死亡が生じると仮定すると、CT群の肺がん以外による死亡者数は1556名と試算される。この仮定の下ではCT群の総死亡者数は1556+356=1912名と試算され、この数字を元にすると、相対リスクは0.96、95%CIは0.90〜1.02となり、総死亡率の減少は4%にとどまり、95%CIに1が含まれるので、有意差も消滅する。

第4に、肺がんのCTスキャンについてはヨーロッパで複数のRCTが行われているが、NLSTのような総死亡率の減少傾向が必ずしも見られない。図2に、NLSTに加えて、ヨーロッパで行われたDANTE[10]、DLCST[11]、MILD[12]という研究についての数字を載せている。たとえば、DANTEでは、CTスキャンの受診者数が1264名でそのうち180名が死亡、非受診群は1186名でそのうち176名が死亡していて、相対リスクは0.96なので、死亡率は4%減少だが、95%信頼区間は0.79〜1.16となっていて、1が含まれているので、有意な減少効果ではない。DLCSTとMILDは相対リスクがいずれも1を超えている。ヨーロッパの3つの研究は研究参加者数がNLSTに比べて少ないので、一定の方向に向かいにくいのかもしれない。ちなみに、これらの4つのRCTの結果をメタ解析で束ねると、この図にあるとおり、相対リスクが0.95で、総死亡率は5%減少しているが、95%信頼区間が0.90〜1.01で1が含まれているので、統計学的には減少効果はなかったことになる。

図2:肺がんのCTスキャンのメタ解析の例(総死亡率)
図2:肺がんのCTスキャンのメタ解析の例(総死亡率)
(出典)表中の4研究のデータより、筆者が固定効果モデルによるメタ解析を実施した結果を記載している。

3. 「がん検診に効果がある」という言葉の意味

私たちは、特に定義することなく、がん検診に効果があるかないかという言葉を使っているかもしれないが、実際には以下の2つの定義の間で争いがある[13]。

①検診の対象である特定のがんによる死亡率を減らすか否か?
②総死亡率を減らす(寿命を延ばす)か否か?

がん検診に効果があるという肯定的な指摘がなされるときには、上記の①を指すことが普通である。がん検診の本来の目的は寿命を延ばすことにあると思われ、その意味では②の方ががん検診の効果を評価する上で適切そうだが、実際には、総死亡率の有意な減少が個々のRCTで示されるケースは少なく、示される場合であってもそのRCTを含めたメタ解析では有意差は消滅する[14]。特定のがんによる死亡率の減少が示されても総死亡率の減少が示されないことについて、ありそうな理由は以下の2つである。第1に、数千人、数万人では被験者数が少なすぎて総死亡率が低下するかどうかの検証が極めて困難なことである[15]。第2に、特定のがんによる死亡率は減ったが、他のがんや[7]、がん以外の原因(自殺や循環器疾患[16]など)による死亡が増えたために、全体として相殺される可能性がある[17]。このどちらが正しいかはよくわからない。

表2は、厚生労働省の人口動態調査から作った人口10万人あたりの死因別死亡者数で、黄色い部分ががん(悪性新生物)による死亡者数割合である。がん全体としてみれば死亡者数割合が大きいが、がんと一口に言っても、実際にはさまざまな臓器に分かれることがわかる。たとえば、男性の肺がんの場合、死亡者数割合は死亡者数全体の8%となっている。仮にこれがCTスキャンの実施によって20%減少すると仮定すると、8%×0.2=1.6%だから、他の死亡率が変化しないとすれば、総死亡率は1.6%減少することになる。仮に本当に1.6%減少するとしても、この数値自体は小さいため(RR 0.984)、この数値を統計学的に検証するためには、数十万人、数百万人の検診が必要になりそうだ。他のがんは、男性の肺がんよりも全体の死亡者数に占める割合が少ないので、総死亡率の減少を証明することはもっと難しい。また、もともと各臓器毎のがんの死亡率は小さく、がん検診が特定のがんの死亡率の減少に及ぼす影響も小さいので(胸部CTスキャンで20%減少)、仮に総死亡率の減少が本当に存在するとしても、相当小さな数字になる。

表2:人口10万人当たりの死因別死亡者数(上位15位まで)
表2:人口10万人当たりの死因別死亡者数(上位15位まで)
(出典)平成27年人口動態調査より作成。一番細かい分類を使用し、「その他の」とあったものは外した。割合は死亡総数に占める割合。

以上をまとめると次のようになる。がん検診が寿命を延ばすというエビデンスはない。ただし、エビデンスがないのは、数千人〜数万人程度と研究規模が小さいためであるかもしれず、研究規模を極めて大きくすればエビデンスが示されるかもしれないが、こうした研究を行うことは相当難しい。また、仮に寿命を延ばす効果があるとしても、特定の臓器におけるがんによる死亡割合が小さく、また、がん検診が特定のがんの死亡率を減らす効果は小さいので、効果があるとしても定量的には小さいものとなる。

4. 過剰診断の問題

がん検診については、過剰診断・治療、偽陽性による心理的苦痛といった問題があることが指摘されている[7]。特に過剰診断については新しい問題として最近話題になっている[18]。

ダートマス大学のウェルチ教授によると、がんと呼ばれるものの中には、ウサギとカメと鳥がいるそうだ[17]。カメは進行スピードが遅くて治療する必要がない。鳥は早期発見しても助からない。ウサギは治療することが意味のあるがんである。カメのがんについては、がん検診によって発見されることにより不必要に治療されるという問題(過剰診断・過剰治療)がある。現在の医療では、ウサギかカメかを識別することができず(従って、過剰診断は誤診とは異なる)、カメも含めて治療される。このため、治療しなくても問題ないものが、あたかも治療によって治ったように見えてしまい、がん検診の弊害が便益と誤解されてしまう[17, p.77] 。このカメについては、「がん」という名称の代わりにIDLE(indolent lesion of epithelial origin)という言葉を使うことが提唱されている[19]。

実際に過剰診断がどの程度の割合で起きているかについてはいろいろと議論があるようだ。ウェルチ教授らの試算では、10万人中、マンモグラフィによって追加的に「がん」が発見される人数が162人だとすると、そのうち、その「がん」が成長して大きくなるのは30人だけで、残りの132人は過剰診断とされている[20]。

過剰診断と偽陽性については、心理的な苦痛にとどまらず、経済的コストの増加を招くことが指摘されている。乳がんについての一試算によると、偽陽性、侵襲性がん、非浸潤性がん(DCIS)のそれぞれのコストが852ドル、5万1837ドル、1万2369ドルだとし、偽陽性の発生率が11%、侵襲性がんと非浸潤性がんの過剰診断の割合がそれぞれ22%、86%だとすると、偽陽性と過剰診断の米国全体におけるコストが毎年40億ドルとなっている[21]。

5. 終わりに

本稿では、がん検診に寿命を延ばす効果があることが証明されていないこと、そのような証明は難しいこと、がん検診が寿命を延ばす効果は仮に存在するとしても小さいこと、がん検診にはいいことばかりではなく過剰診断をはじめとする問題があることについて触れた。

最後に、最初に言及したがん対策基本法にもう一度触れたい。同法の第6条では、国民は「必要に応じ、がん検診を受けるよう努める」ことになっている(第6条)。本稿で見てきたことを踏まえると、「必要に応じて」とは言っても、がん検診を受けるよう努めるというのは言い過ぎのように思う。がん検診を受けることにはメリットもデメリットもあり、メリットがデメリットを上回るという証拠はない。がん検診を受けるかどうかは国民が自主的に判断すべき話であって、政府が強いることはできないし、特定の方向に誘導することも望ましくないと思う。

次に、第14条では、国や地方公共団体は、「がん検診の受診率の向上に資するよう、がん検診に関する普及啓発その他の必要な施策を講ずるものとする」となっている。これについても、本稿で見てきたことを踏まえると疑問がある。「がん検診に関する普及啓発」が正確な情報提供ということであればもちろん重要なことだが、正確な情報提供は「受診率の向上」につながるものではないし、受診率を向上させることが国民にとって望ましいかどうかもわからない。

がん検診に対する国や地方公共団体のスタンスについて、信頼すべきエビデンスと自己決定権の尊重という観点に立って、見直す時が来ているのかもしれない。

参考文献
  1. Greenhalgh T. How to read a paper: The basics of evidence-based medicine: John Wiley & Sons; 2014.
  2. Oken MM, Hocking WG, Kvale PA, Andriole GL, Buys SS, Church TR, Crawford ED, Fouad MN, Isaacs C, Reding DJ. Screening by chest radiograph and lung cancer mortality: the Prostate, Lung, Colorectal, and Ovarian (PLCO) randomized trial. JAMA. 2011;306:1865-73.
  3. Manser R, Lethaby A, Irving LB, Stone C, Byrnes G, Abramson MJ, Campbell D. Screening for lung cancer. Cochrane Database of Systematic Reviews. 2013.
  4. Holme Ø, Bretthauer M, Fretheim A, Odgaard-Jensen J, Hoff G. Flexible sigmoidoscopy versus faecal occult blood testing for colorectal cancer screening in asymptomatic individuals. Cochrane Database of Systematic Reviews. 2013.
  5. Harris R, Kinsinger LS. Less is More: Not “Going the Distance” and Why. JNCI: Journal of the National Cancer Institute. 2011;103:1726-8.
  6. Neugut AI, Lebwohl B. Colonoscopy vs sigmoidoscopy screening: getting it right. JAMA. 2010;304:461-2.
  7. Gøtzsche PC, Jørgensen KJ. Screening for breast cancer with mammography. Cochrane Database of Systematic Reviews. 2013.
  8. Team NLSTR. Reduced lung-cancer mortality with low-dose computed tomographic screening. N Engl J Med. 2011;2011:395-409.
  9. Prasad V, Lenzer J, Newman DH. Why cancer screening has never been shown to “save lives”—and what we can do about it. BMJ. 2016;352:h6080.
  10. Infante M, Cavuto S, Lutman FR, Passera E, Chiarenza M, Chiesa G, Brambilla G, Angeli E, Aranzulla G, Chiti A. Long-term follow-up results of the DANTE trial, a randomized study of lung cancer screening with spiral computed tomography. Am J Respir Crit Care Med. 2015;191:1166-75.
  11. Wille MM, Dirksen A, Ashraf H, Saghir Z, Bach KS, Brodersen J, Clementsen PF, Hansen H, Larsen KR, Mortensen J et al. Results of the Randomized Danish Lung Cancer Screening Trial with Focus on High-Risk Profiling. Am J Respir Crit Care Med. 2016;193:542-51.
  12. Infante M, Sestini S, Galeone C, Marchianò A, Lutman FR, Angeli E, Calareso G, Pelosi G, Sozzi G, Silva M. Lung cancer screening with low-dose spiral computed tomography: evidence from a pooled analysis of two Italian randomized trials. European journal of cancer prevention: the official journal of the European Cancer Prevention Organisation (ECP). 2016.
  13. Black WC, Haggstrom DA, Welch HG. All-cause mortality in randomized trials of cancer screening. J Natl Cancer Inst. 2002;94:167-73.
  14. Saquib N, Saquib J, Ioannidis JP. Does screening for disease save lives in asymptomatic adults? Systematic review of meta-analyses and randomized trials. Int J Epidemiol. 2015;44:264-77.
  15. Gigerenzer G. Full disclosure about cancer screening. BMJ. 2016:h6967.
  16. Fang F, Fall K, Mittleman MA, Sparén P, Ye W, Adami H-O, Valdimarsdóttir U. Suicide and Cardiovascular Death after a Cancer Diagnosis. N Engl J Med. 2012;366:1310-8.
  17. Welch HG. Less Medicine, More Health: Beacon; 2016.
  18. Welch HG, Black WC. Overdiagnosis in cancer. J Natl Cancer Inst. 2010;102:605-13.
  19. Esserman LJ, Thompson IM, Reid B, Nelson P, Ransohoff DF, Welch HG, Hwang S, Berry DA, Kinzler KW, Black WC et al. Addressing overdiagnosis and overtreatment in cancer: a prescription for change. The Lancet Oncology. 2014;15:e234-e42.
  20. Welch HG, Prorok PC, O'Malley AJ, Kramer BS. Breast-cancer tumor size, overdiagnosis, and mammography screening effectiveness. N Engl J Med. 2016;375:1438-47.
  21. Ong M-S, Mandl KD. National expenditure for false-positive mammograms and breast cancer overdiagnoses estimated at $4 billion a year. Health Aff (Millwood). 2015;34:576-83.

2017年5月16日掲載

この著者の記事