分析的観察研究

本研究の意義

本研究の意義

観察疫学はどこまでRCTに近づけるか

 

さて、分析的疫学研究をテーマにサイトを作成してきましたが、長々とお付き合いいただきありがとうございました。ここまでお読みいただけたことに心より感謝申し上げます。以下は私の「思い」が中心の記述であり、ときに変な方向に行ってしまっているかもしれません。支離滅裂になりましたらどうかご容赦ください。

 

さて現時点では結論が出ないことですが、私のかねてよりの興味は「外科領域の臨床研究」において

 

厳密にデザイン設計された観察研究は、RCTに近い結果が出せるのか?

 

ということでした。

 

当たり前ですが、RCTをせずにエビデンスが創出できるならそれに越したことは有りません。しかしなぜ数々の苦難を乗り越えて臨床試験が行われるようになってきたかという点に関しても、RCTの功績において述べてきました。しかしそれらは薬剤評価が中心の話でした。ここではあくまで、「外科介入の評価」について考えてみたいのです。

 

もしRCTをせずに過去の症例を組み合わせることで仮想のRCTのような状況をつくり、質の高い比較ができるとすれば、外科医は常に患者に最良と信じる手術を提供すればよく、臨床試験に登録する必要も無ければ、それに合わせて普段の治療を変える必要がなくなります。外科医と患者双方に大きな利益があります。

 

ちなみに、外科に限らなければ、観察研究と介入研究の比較はいくつかのレビューがあり、「観察研究の導く結果は(アウトカムによっては)介入研究と大差がない、または特定のアウトカムに関しては観察研究は効果を高く見積もる傾向にある」などの論文が出ています。

 

代表的なもので言えば2014年にJAMAに掲載されたCan the Learning Health Care System Be Educated With Observational Data?という論文があります。

 

今回のLOC-1に関しては、わが国でも大きな臨床試験組織が同様のテーマでRCTを実施しており現在追跡期間中のようです。この結果が公表された暁には、LOC-1の結果と比較することで上記の命題に少し答えが出せるかもしれません。

 

その時にはまた議論をしたいと思いますが、現時点で感じることは、外科介入の効果を科学的に評価するための方法論としてRCTが唯一無二なのか?ということです。

 

  • RCTができないテーマ (たとえば、専門医と研修医、どちらの術者が術後合併症が多いか、など) に関して観察研究をしっかりやりましょう、ということには誰も異論はないと思います。
  •  

  • 問題は、やろうと思えばRCTができるけど・・・というテーマです。ある人は、「RCTができるならRCTをやるべきである」、「やれない理由がないなら、何故RCTをやらないのか」と言います。

 

(RCTの功績のところで書きましたがEBMの追及という歴史的な流れがあり介入の効果を検証するためにはRCTが有効な手段であると考える先生方がいらっしゃることは重々理解しているつもりです。しかし、ここでの議論はあくまで「外科領域の臨床研究にも、抗菌薬や抗がん剤のように同じ型に当てはめてエビデンスを議論すべきか、ということなのです。)

 

分析的観察研究, propensity score matching, gastrectomy, laparoscopic surgery

 

介入研究の強み

 

今回の経験を通じて、RCTの利点・欠点が浮き彫りにできたような気がしています。
まず一般論として、RCTの強みはなんといっても

 

1.未知の交絡因子が調整できる

 

ということであり、これはそれ以外の方法ではなかなか調整が難しいとされています。で、本当にそうか?ということです。

 

まず統計手法に関して述べるなら、未知の交絡を調整するのは傾向スコアでは無理ですが、操作変数法ならば可能とされています。ぜひ操作変数法を外科領域の臨床研究に持ち込みたいものですが、この手法も乱用する研究者がいるので安易に取り組むつもりはありません。操作変数となりえる変数を探し、それが疫学的に認められるかどうか、十分な検証が必要です。私自身まだ外科領域で生かせるような納得いく操作変数が発見できておらず、目途は立っておりません。ただし、未知の交絡を調整する方法論はRCTだけではない、ということは知っておくべきと思います。

 

さらに言えば、「未知の交絡とはいったい何か?」ということです。いや未知は未知なんだから分かるわけないと言われればその通りですが、例えば胃がんでも大腸がんでも良いのですが、生存率に強く影響する因子は多くの既存研究があり、その代表がTNM因子などでしょうが、それ以外にまだ分かっていない臨床的な要因がまだまだあるのでしょうか?

 

LOC-1の患者背景を見ていただくとお分かりの通り、傾向スコアマッチングによってアウトカムへの影響が予想される背景要因はかなり正確に調整されています。この調整され具合は「むしろRCT以上に」調整されている状況です。RCTはランダムに割り付けますから、多少、患者の背景因子に偶然の偏りが生じてしまいます。

 

つまり、私の疑問は、ランダム化によって「あらゆる交絡因子が”ある程度”調整されているであろうRCT」と、「既知の交絡因子を”キッチリと厳密に”調整した観察研究」のどちらがより科学的に介入効果を検証できるのか、ということです。こればかりは未知の交絡が未知である以上、議論を進めるのは難しいかもしれませんが、今回の結果から、「腹腔鏡手術と開腹手術」、以外の既知の要因をキッチリ合わせた結果、再発イベント数が21:22とほぼぴったりと一致したということを考えると、このテーマに関しては既知の要因以外に強い影響を及ぼす未知の要因があるとは全く思えません。

 

あくまでこの研究で扱った介入とアウトカムに関しては、と前置きしますが、交絡調整は十分に行われたと見てよいのではないかと思っています。

 

その他にRCTの強みとしては

 

2.事前にプロトコールを公表するのでアウトカム・レポーティングバイアスが回避される
3.仮設検証に必要十分なサンプルサイズ設計ができる
4.前向きのデータ収集は精度が高い

 

などもあげられますが、この点は観察研究でもカバーできることです。あらかじめプロトコールをしっかり設計し、仮説検証に必要なサンプルサイズを見積もっておき、それをWebで公開する。もちろん仕組みを作って義務付けするのは難しいですが、研究者個人がそういう欠点を理解して対策を立てておくことは可能だということです。データの精度に関しては、前述を参照していただければと思います。

 

観察研究の強み

 

さて一方で、観察研究の強みは何でしょうか?

 

  • 結果が早くわかる
  • コストが圧倒的に安い
  • 外的妥当性を高めることができる

 

RCT比べて「早い・安い」というのはすぐにお分かりいただけると思います。もちろん早いといってもそれなりの時間はかかります。このLOC-1研究は2013年10月に初めて計画に着手し、解析が終了したのが2015年4月頃でしたから、研究期間は1年半、論文採択まで2年以上かったことになります。

 

しかし同じテーマでRCTをした場合には少なくとも、その4〜5倍の時間がかかるのではないかと思います。とくに癌の治療効果を検証する(5年生存率を比較する)臨床試験はどうしても長期間のフォローアップが必要です。また先日、胃全摘術のD2郭清について脾摘を付加すべきかを問うRCTの結果が公表されましたが、途中で新たな補助療法のエビデンスが出てきたり、症例登録を一時中断したりといろいろな苦難があったようで、研究計画の立案から実に結果が出るまでに13年?(すみません、正確にはわかりませんが)ほどかかったようです。

 

追跡期間が必要なのは仕方がないとして、登録期間は単純に研究母体の組織力と必要サンプルサイズのバランスに左右されます。中には「十分すぎるほどの症例が予定よりも早く集まった!」という臨床試験もあるのかもしれませんが、多くの介入研究はサンプルサイズ不足に悩まされています。とくに外科医が主導して行う純粋な(資金力のない)研究、患者にインセンティブのない研究はほぼ例外なくサンプルサイズ不足に悩まされるといっても過言ではないと思います。

 

RCTの強みとして、サンプルサイズを事前に設計するなどの科学的な仮説検証が可能ということを強調する人もいますが、実は、サンプルサイズ設計が大きく間違っている臨床試験は意外に多いです。サンプルサイズは、新規治療の効果の見積もりとそのばらつき(標準偏差)によって決定しますが、当然効果の見積もりが大きければ大きいほど、少ないサンプルサイズで検証が可能です。逆に効果の見積もりが小さいほど、多くのサンプルサイズが必要となるのです。これは非常に逆説的ですが、小さな効果を証明するためには大がかりな臨床試験が必要となり、巨額の資金が必要になる。巨額のコストを費やして小さな効果を証明する意義がどこまであるのかというジレンマに悩まされます。

 

逆に、プロトコール上で見積もられている治療効果が「かなり楽観的(介入効果の期待値が高すぎるか、標準治療が過小評価されている)」に設定されているケースも見られます。

 

以下は個人的な勝手な想像ですが、研究者が「できることからやろう」とした結果かもしれないと、勘ぐりたくなることがあります。研究疑問(仮説)ありきでデザインを決定するのではなく、「うちの組織力だとこれくらいしか集められないよね」という組織のパフォーマンスが前提で計画を立て、「その範囲でできるStudyをやろう」という実施可能性ありきで設計された可能性です。そのために、効果の見積もりを大きく水増して、必要サンプルサイズを小さく設計して試験をスタートさせてしまい、結果として何の科学的結論が導けないという研究も正直な印象としてこの世には存在していると感じています。

 

臨床試験はやはり人体実験の一種なのです。それを「やりたいからやる」「やれるからやる」という考えを容認することは、せっかく業界の利権から独立した先人の医師たちが崇高な理念で確立してきた現在の臨床試験体制というものに対する背信行為ではないかと思うのです。

外的妥当性とは何か

内的妥当性・外的妥当性

 

さて、最大の議論は「外的妥当性」がどこまでいえるかどうかということでしょう。

 

外的妥当性とは、得られた研究結果が、ほかの集団にも当てはまるか?ということです。

 

逆に、内的妥当性とは、その研究内部の妥当性、すなわち、比較の質、解析の質のことを指します。介入効果を比較する場合、治療群間の患者背景に差がある、同じ群内の介入に質的差が大きい、群間でフォローアップの仕方に差がある、などいろいろな交絡があってアウトカムの比較妥当性が損なわれることがありますが、これらを内的妥当性と呼びます。

 

RCT、すなわちランダム化比較をする最大の目的は、内的妥当性を高めることにあります。理想的な比較条件というのは遺伝子型をそろえたマウス実験の環境ですが、ヒトを対象とした臨床試験の場合には適格基準が厳しく設定して、同じような患者を集めることで内的妥当性を高めることができます。しかしよく知られるように、あまり理想的な症例ばかりを集めても、得られた結果が一般診療にあてはめられるのか?という「外的妥当性」疑問符が付きます。

 

このように内的妥当性を確保するためには、ある程度外的妥当性を犠牲にせざるを得ないことがあります。そして、この点をRCTの欠点かのように指摘する人もいますが、どちらかといえば考え方は「逆」だと思います。

 

分析的観察研究, propensity score matching, gastrectomy, laparoscopic surgery

 

研究者が病態生理の解明に力点を置いている場合

 

外的妥当性を考慮する必要はそもそも無いのです。
内的妥当性を追及することで介入の効果に関する病態生理を解明したいという意志でRCTを組む(practicalなRCT)研究者がいるということを忘れがちです。つまり、実施するRCTが、薬剤作用機序が特定の病態に本当に有効であるかを解明することを目的に企画されたものであれば、対象疾患以外の併存疾患や身体異常を有さない対象が組み入れられたほうが良いに決まっています。その結果が、世界中の患者に等しく当てはまるのか?ということはそもそも研究者の眼中にないのです。

 

診療指針が分かればよい場合

逆に、臨床医の判断の幅や、介入のばらつきなども「すべて含めて診療指針を提示したい」というpragmaticなRCTの場合には、組み入れ基準を緩くして幅広く多くの症例を登録してモノを言うということがあります。

 

古くは、「森鴎外」と「高木兼寛」の脚気論争が挙げられます。ご存知と思いますが、要するに「兵隊に玄米を食べさせれば脚気にならない」というざっくりした指針を示したのが高木海軍医の研究成果で、これは実際に軍艦を試験航海に出して介入試験を行った結果から導き出した答えだったのです。

 

分析的観察研究, propensity score matching, gastrectomy, laparoscopic surgery

 

意外に知られていないことですが、これに対する森鴎外の反論は「ある意味で医学的に至極まっとうな論述」を展開しているのです。何をもってそのような少ない経験則で科学的結論が出せるのか、という趣旨です。森鴎外はやはりこの時代の水準からは一歩抜け出た頭脳の持ち主であることは間違いなく、「やってみたらうまく行ったということでは因果関係を示したことにならない」という反論をしています。森の考えは「あくまでも医学というのは病気の原因を特定した上で、それに対応した治療法を確立するものである」ということだったのだろうと思います。もちろん、彼は脚気は細菌感染によるものだと主張していたので、軽々にそれを覆したくなかったという立場があったのでしょうが、それは政治的立場というより、「まず仮説を立て実験をする科学者」という立場から見れば当然の態度と言えます。ただ一言いうならば「疫学的視点」が無く、さらに言えば「臨床的センス」はもっとなかった(お蔭でたくさんの兵士が亡くなった)ということかもしれません。

 

これを現代風に極端な例にするなら

 

たとえば「胃がんに術前化学療法は有効か」ということが知りたい場合、組み入れ基準は「主治医が術前化学療法をすべきか迷った症例」だけ、としたらどうでしょうか。すぐに多くの症例が集まるでしょう。そして結果の解釈も明快です。もし結果がpositiveに出た場合「迷ったら術前化学療法をすべし!」と結論できます(これが高木兼寛の立場)。しかし、このデザインではなぜ術前化学療法をすべきかという腫瘍学的なことを解明することはできません。どういう機序で、どういう薬剤が、どういう癌腫に効くのか、という病態生理を明らかにする(これが森鴎外の立場)には不向きな研究デザインです。

 

このように、内的妥当性と外的妥当性のバランスをどこに取るのかということは、RCTの目的がなんであるのか、研究概念を明確にすることと同じことなのです。話を戻して外科的介入に関する臨床試験の場合・・・どちらにバランスをとるべきか。私個人としては答えは明快だと思うのですが、どうでしょう?議論を先に進めるのはまだ難しいかもしれません。

 

総括

最初に申し上げた通り、この研究テーマはありきたりのものでした。

 

そして解析手法も傾向スコアマッチングというPubmedにあふれかえった手法でした。

 

しかしAnnals of Surgeryほどの雑誌が採択してくれたのは、研究意義の大きさを評価してくれたのではないかと思います。

 

ありふれた研究も、方法論を突き詰めて厳密に行うこと、分析的疫学研究という観点から、世の中の流れや科学的水準に沿った考察を行うことでインパクトのある論文になりますし、なにより研究者が過去の診療を振り返り、今後に生かすという「実りの多い成果」になるのではないかと思います。

 

分析的観察研究, propensity score matching, gastrectomy, laparoscopic surgery


ホーム RSS購読 サイトマップ
TOP アウトカム研究 ブログ お問い合わせ