分析的観察研究

研究デザイン

過去起点コホート研究

LOC-1はたった3施設共同の観察研究

 

「後ろ向き研究は価値が無いのか」の項でも取り上げましたが、この研究デザインは「過去起点コホート(Histolical Cohort)」というものです。参加した3施設で、2006年から2012年までに臨床診断でステージIと診断され、手術を行った症例を集積してデータベース化しました。

 

作業は意外に簡単ではありませんでした。

 

まず臨床診断というのは手術前の画像診断によるステージ(Clinical stage)です。術前診断をきちんとデータベース化している施設は専門病院でも実は少ないのです。私が当時勤務していたがん研究会有明病院でも、2006年当時のデータには術前診断が含まれていませんでした。そこでカルテを見直して、術前診断が記入されている部分を検索して再度データを収集しなおすという作業からスタートしました。ステージ診断に必要なT/N/Mの因子は比較的容易に抽出できましたが、腫瘍の大きさや周在性というのはなかなか厄介でした。内視鏡レポートや造影検査を振り返って確認する作業も必要でした。

 

分析的観察研究, propensity score matching, gastrectomy, laparoscopic surgery

 

データマネージャーを雇用してデータ整理を行いましたが、このような質的な確認作業の部分はどうしても外科医の目が必要となり、中々しんどい作業でした。ただ、このような経験は現在手掛けている地域医療データーベース構築に関しても大きな参考になりました。

 

交絡調整をどうするか

交絡調整

 

さて、これはあまりに一般的な話ですが、単純に開腹手術と腹腔鏡手術の患者について生存期間を比較してもあまり意味が無いことは良くご存じだと思います。それは、そもそもなぜ同じステージIの胃癌患者に2種類の手術アプローチが行われたのかを考えればすぐに分かります。

 

開腹手術が選択された患者は、

  • ステージIの中でも少し進んでいる可能性がある癌
  • 腹腔鏡手術がやりにくい
  • 全身状態が悪い

 

など悪条件が多く、逆に腹腔鏡手術が選択された患者は、導入当初は事故が無いように、慎重に適応が選ばれた可能性が高いので、

 

  • 腫瘍の再発リスクが少なそうな症例
  • 安全に手術が出来そうな患者

 

が多いことが予測され、結果として腹腔鏡手術の方が成績が良く見えてしまう可能性が高いのです。

 

 

 

しばしば臨床研究に見られることですが、日常診療において

 

  • 重症患者には手厚い治療を
  • 軽症患者には手控えた治療を

 

行うのが普通の医者の裁量というものですから、アウトカムを単純に比較してしまうと、本来有効性が高いはずの手厚い治療のアウトカムが悪く出てしまうという逆転現象が起ります。

 

 

そのために、観察疫学研究のもっとも重要な「交絡調整」が必要になります。
(このあたりがピンと来ないかた、バイアスと交絡の違いが分からない方は、外科に限ったことではないので、成書で学んでいただきたいと思います。このサイトはなるべく外科に特化した臨床研究の問題点に焦点を当てたいと思っています。)

 

LOC-1における交絡調整法

 

今回の研究では、さらに複雑なことに、2つの手術アプローチ法を選択する判断基準は時代の流れとともに変化していくということも重要な要素でした。2006年時点での腹腔鏡手術に対する世の中の常識と、2012年の時点では大きく変わっていますし、デバイスや術後管理も進歩しています。

 

分析的観察研究, propensity score matching, gastrectomy, laparoscopic surgery

 

これは日本内視鏡外科学会のアンケート調査結果ですが、このように2005年から2009年は劇的に症例が増えており、10年間平均では腹腔鏡を使用した胃癌手術件数は4〜5倍の増加を認めていたのです(もちろんアンケート対象外の施設もたくさんあるでしょう)。

 

このように複数の交絡因子が複雑に絡み合って、腹腔鏡と開腹の手術アプローチの割り付けが判断されているということから、その判断基準を調べる必要があると考えられました。

 

そこで交絡調整法には傾向スコアマッチング(Propensity score matching)が良いのではないかと思いました。

傾向スコア(propensity score)とは?

傾向スコアの推定

 

傾向スコア(プロペンシティスコア)解析は、とくに外科領域で「乱用」「誤用」「誤解」の多い手法のように思います。傾向スコアとは一言でいえば「AとB二つの治療のうち、どちらかに割り付けられる確率」を示す変数です。

 

例えば傾向スコア=0.8という数値が出れば患者Xさんが治療Aに割り付けられる確率が80%、治療Bに割り付けられる確率が20%ということになります。

 

分析的観察研究, propensity score matching, gastrectomy, laparoscopic surgery

 

この手法の統計学的な理論に関してはいろいろな教科書やWebサイトでも説明されているので多くは述べませんが、ざっくり言えば傾向スコアの推定にはロジスティック回帰分析と同じ数学的モデルを用いており理論背景は大差ありません(実は解析結果も大差ないと言っている人もいますが、それはまあいいすぎでしょう。)

 

「ロジスティック回帰分析」はとくに外科医が好んで用いる解析で、とある内科医からは●●の一つ覚えと揶揄されたこともありますが(怒!)、重要なお約束は従属(目的)変数は二値変数だということです。たとえば、癌の再発リスク因子を調べたいときには、再発した、しないを従属変数として0か1の二値に振り分け、候補となる要因(腫瘍のステージ、大きさ、転移部位、組織型、などなど)を独立(説明)変数として方程式を作成し、数学モデルから各独立(説明)変数のオッズ比を推定します。

 

傾向スコア解析では、ロジスティックモデルにおける従属変数を再発の有無ではなく、治療がA、Bどちらに振り分けられたかという割付け結果を二値変数として従属変数に設定(A=0、B=1など)します。独立変数には治療の割り付けに影響する因子を代入することで、その要因の影響力がオッズ比として評価できるというわけです。それぞれの因子の、治療選択にかかる影響力を調べ、その傾向をスコア化することで、個々の症例が、治療Aに割り付けされる確率が予測できるというわけです。

 

よくある誤解

外科医によくある誤解の第一は、この傾向スコア解析は最近開発された新しい解析手法でも何でもないということです。この手法をRosenbaum博士とRubin博士が「The Central Role of the Propensity Score in Observational Studies for Causal Effects」という論文を発表したのは1983年のようですが、当初はおもに教育学の領域で用いられていたようです。社会学系の研究はRCTなどできないことが多いですから、いろいろな交絡調整法が研究されたのだと思います。(たとえばカトリック系の学校教育とそれ以外の教育の比較、などがよく行われたようです。たしかにこのテーマではRCTは実施不能ですね。)

 

30年前から用いられている交絡調整法が、ここ5-6年の間に外科医によって「再発見?」されて大流行したような印象です。元々ロジスティック回帰分析を好む外科医にはなじみやすかったためか、外科領域の臨床研究で傾向スコアという用語は非常に有名になりました。なんだか新しい斬新な解析法だという誤解もこの最近の流行で生まれたものだと思います。

 

第二の誤解は、共変量の選択法です。最近それこそ「一つ覚え」と揶揄されるように外科系の臨床研究、とくに術式比較のような研究に傾向スコア解析が用いられることが多いのですが、傾向スコア推定に用いるロジスティックモデルの説明変数(以降”共変量”とします)の選択が実にいい加減と言わざるを得ません。前述の傾向スコアを開発したRosenbaumとRubinの意図するところは、治療に割り付けられる前の情報を用いて傾向スコアを推定するということだと思います。そうでないと傾向スコアというものの意味が変わってきてしまうからです。さらに、ここは意見の分かれるところでしょうが、割り付けの判断基準としてはそれほど大きな影響力を持たないかもしれないが、アウトカムに影響する因子をどうするかという問題があり、これもRubin派の流れをくむ学派の言わんとするところはおそらく、そのような因子も治療前の情報であれば共変量に含めるべきということではないかと個人的には考えています(統計学は苦手なので、もし詳しい方がおられたら間違いを修正して下さい)。

 

傾向スコアに着目したのは良いとして、介入前の因子から介入の割り付け確率を予測するという原理を全く無視したような解析や、単にロジスティック解析における独立変数を一つにまとめるための手法として利用しただけの研究が「Propensity Analysis」などタイトルに銘打ってPubmedに溢れかえっています。この辺りは以前から「少しやりすぎじゃないの?」というレターを同僚と書いてみましたが、あまり手ごたえなく、このようなモグラたたきをしていても仕方がないと感じました。

 

例えば
1.肺癌に対する胸腔鏡と開胸手術の比較
2.胃癌に対する大網温存と切除の比較
3.胃癌に対する腹腔鏡と開腹の比較
などなど、探せば枚挙に暇がありません。いずれもImpact Factorの高い雑誌です。

 

外科領域の臨床研究として、お手本を目指して

 

そこで今回のLOC-1で傾向スコア推定を可能な限り厳密に行い、外科領域の題材における傾向スコア解析のお手本となるような臨床研究を示したいということと、さらには、その方法論を厳密に突き詰めることで、本来傾向スコア解析が目標としている仮想RCTの環境をどれだけ作り出せるかという挑戦の意味も込めて、共変量となりえる要因を徹底的に検証し、30ほどの因子を抽出して、臨床的視点から潜在的交絡因子を強制投入することで傾向スコア推定を行ったというわけです。

 

分析的観察研究, propensity score matching, gastrectomy, laparoscopic surgery

 

既存研究では、せいぜい傾向スコア解析に用いている共変量は4〜5個ですが、外科医が術式を決定する要因がたったの4つか5つというのはあまりに現実離れしています。しかも術後の情報(病理所見や術後合併症)が含まれている場合も多々あります。統計家に解析を委託しているような研究では傾向スコア推定にとって重要な「臨床的視点」が欠如し、使える変数を使う、統計学的に偏りの大きい変数を使う、モデルが安定するように共変量選択をするという手法が横行しており、それこそ「一つ覚え」と揶揄されてきたstep-wiseのlogistic regression modelと何が違うのか?と思うのです。

 

なんとなく統計家が入って解析を任せていますという論文を見ると、査読者もそこに口出ししにくいのかもしれませんが、臨床医が交絡調整のデザインをしっかり主導しないと、「臨床的に当たり前の理屈」がすっかり抜け落ちたまま、査読もなんとなくスルーされて論文化されてしまいます。論文は全世界に向けて一生自分の名前が残ってしまうものなので、後々まで禍根を残さぬよう、筆頭著者たる臨床医(外科医)が責任もって観察疫学の基礎を学ぶ必要性を感じます。


ホーム RSS購読 サイトマップ
TOP アウトカム研究 ブログ お問い合わせ