結果の解釈

非劣性の証明とは！？

本研究は目的を達成できたでしょうか

つまり「腹腔鏡手術の非劣性」を証明できたか？ということについて考えてみたいと思います。

本研究も当初は仮説検証に必要なサンプルサイズを見積もって、十分な検出力のもとに検定を行いたいと考えていました。しかし実際にはStage Iの胃がん再発率が低く（全体で2.5％程度）、イベント数が少なく、ハザード比の95％信頼区間の幅が広くなってしまいました。このようなことは十分に想定されていたため、あらかじめ非劣性マージンとしてハザード比の上限が設定しにくかったというわけです。論文投稿した際にもサンプルサイズが十分と考える根拠は何か、非劣性を主張できるのか、といった査読コメントが付きました。

これはむしろRCTの際に際立つ欠点といえます。実は「サンプルサイズは予定通り集まったのに、イベントが少なすぎるために統計学的仮説検証ができない！」という残念な事態に数々のRCTは泣かされてきました。HRの95％信頼区間が広くなりすぎてしまう現象です。たとえば大腸がんを対象にした腹腔鏡VS開腹のRCTも同様の問題点に見舞われ非劣性が証明できないというモヤモヤした結果となりましたし、胃がんを対象にしたRCTも同じ問題でサンプルサイズを途中で増やすかどうかが議論されました。検出力というのはイベント数で決まることなので、サンプルサイズをいくら増やしても、イベントが起こりそうもない症例を登録ている以上は臨床試験の成功にはつながらないのです。

サンプルサイズ設計は難しい

登録症例数が1000例以上の臨床試験をメガトライアルなどと誇らしげに呼ぶことがありますが（実際にはキロだろ、という突っ込みはおいておくとして）、登録症例数が多いからといって必ずしも良い臨床試験（説得力のある結果が出せる）になるとは限らないということです。たまに、症例を多く登録した医師を表彰したり、景品を贈呈したりする臨床試験もありますが、そこまでやるならイベントが起こった症例を多く登録した医師も表彰してはいかがかと思う次第です。登録数にこだわるよりイベント発生の見積もりを正確に出すことが重要なのです。後述しますが、臨床試験に組み入れられる患者は大抵は偶発症や合併症が起こりにくい症例を選択していることが多いですから、イベントは通常の患者群よりも発生しにくくなっていることもあり得ます。例えばStageI（StageIAとIB）を対象にした臨床試験でも、おそらく登録症例の多くはStageIAの、さらに言えば「早期癌中の早期癌」症例が組み入れられているはずです。

話を戻しますが、このLOC-1研究も1848例のサイズで再発イベントが43例ですから、このイベントが十分に偏って発生していなければ「統計学的」な仮説検証は困難でしょう。

しかし、私はこの結果を見た時にはすごく感動したのですが、なんと再発数は開腹手術：腹腔鏡手術がそれぞれ22例：21例だったのです！全生存率のカプランマイヤー曲線もぴったりと重なっています（お蔭で値段の高いカラー図表にせざるを得なかった（(笑)））。

臨床的感覚として、「もう十分だろ...」という気持ちになりませんか(笑)。

この結果を見て、まだ腹腔鏡の安全性に疑問符を持つ人がいるとしたら、正直なところ「脚気論争における森鴎外」を思い起こさずにいられません。（後述します）。アウトカム研究のサイトや、RCTの功績の項で説明した通り、臨床試験の事前ルール設計と結果の解釈に厳密であれ、という姿勢はもちろん重視しますが、そういう「そもそも論」を突き詰めれば有意水準が0.05などという基準ですら何の根拠もないことです。生命科学において「AがBである」という命題を直接的に証明することはできないために、数学的対偶を帰無仮説とし、それを否定することで確からしいことを証明する、いわゆる反証主義という方法論をとっている以上、どこかで「もう十分だろ。。。」というラインを引かねばならないわけです。

分析的観察研究, propensity score matching, gastrectomy, laparoscopic surgery

そして現実には、多くの外科医がRCTの追跡結果どころか、この後ろ向き観察研究の結果すら見ずに、早期胃がんの腹腔鏡手術を行っているのです。これは多くの外科医が「もう十分だろ。。。」というラインを引いているということの証左なのではないでしょうか。

答えは出ませんが、はたしてエビデンスとはなんぞやと、考えずにはいられません。

分析的観察研究