Surgical Outcome Research and Innovatiove Collaboration

消化器外科の術式を評価する?できる?

この患者さんには、AとBどちらの術式が良いのだろう?

 

外科医なら誰でも考えたことがあると思います。

 

外科、外科系、臨床研究、アウトカム研究、臨床試験、交絡調整、比較の妥当性、介入の評価、手術、術式、QOL、症状、後遺症

 

 

消化器外科に限ったことではありませんが「術式を評価」するには色々な方法が考えられます。

 

良くある臨床研究では

 

* 術後合併症の発生の有無で比較する。
* 在院日数の多寡で比較する。
* 生存率で優劣で比較する。

などなど・・・

 

 

 

この評価する基準を何に設定するか。それによって結論も変わってきますよね!

 

例えば
「この術式は確かに手術時間は短いけど、合併症は多いのではないか?」というような疑問は常に外科医の頭にありますし、その逆もしかりです。

 

 

臨床研究において、比較すべき結果を「アウトカム」といいますが、術式を評価するには、どのアウトカムを比較すべきなのでしょうか??

 

これは単純に見えて非常に難しい医療の様々な問題点を含んでいます。臨床研究において、アウトカムを設定することは、スポーツにおけるルールを設定することと同じです。ルールを変えてしまえば、特定のチームが有利になったり不利になったりすることがあります。このアウトカムは、誰が?どのように?決めるのでしょうか。それを追及するのがアウトカムリサーチです。

 

このサイトでは外科におけるアウトカムリサーチについて考えてみたいと思います。

 

 

アウトカムは大きく分類すると、術後在院日数や合併症の発生割合、在院死亡の数、生存期間、など数値で表せる「ハードアウトカム」と、患者の痛みなどの主観的症状、または日常生活の質(QOL)など、すぐには正確な数値で表せない「ソフトアウトカム」があります。

 

外科、外科系、臨床研究、アウトカム研究、臨床試験、交絡調整、比較の妥当性、介入の評価、手術、術式、QOL、症状、後遺症

  • ハードアウトカムについては、基礎医学研究や臨床試験のデータを取り扱った経験がある外科医にとっては測定、解析はそれほど難しくありません。
  •  

  • ソフトアウトカムの取扱いは、主観的な要素が入ってくるためいくつかの注意点があります。ソフトアウトカムの解析経験が豊富な外科医はあまりいないのではないでしょうか?

 

性格の差がでるアウトカム選び!

 

ソフトアウトカムは、ハードアウトカムと比較してデータに欠測が多くなりやすい、欠測がランダムにならない、誤差範囲が大きい、結果の解釈が分かりにくいなどの疫学分析における重大な問題点がいくつかあり、好まない研究者も多くいます。

 

私の個人的経験でも、ソフトアウトカムはデータ解析がかなり脆弱だと感じることがあり、注意して使用する必要があると思います。

 

ソフトアウトカムとハードアウトカムのどちらを好むかは、

 

研究者の興味や性格からくる違いです。

 

理科系の研究を好む研究者にとっては、ソフトアウトカムなど「主観的で胡散臭い、再現性に乏しく、価値のないデータ」に見えるでしょうし、

 

社会学系の研究者から見れば、ハードアウトカムは「人間や社会の幸福につながらないファンタジーの世界」に見えるようです。

 

スポーツに例えるなら、客観的かつ精密な測定結果を競い合う100m短距離走を見るのが好きな人と、主観的・芸術的な評価を重視するフィギュアスケートを好む人がいるように、好みや性格の違いが臨床研究のアウトカム選びにも影響してくるわけですね。

 

外科、外科系、臨床研究、アウトカム研究、臨床試験、交絡調整、比較の妥当性、介入の評価、手術、術式、QOL、症状、後遺症外科、外科系、臨床研究、アウトカム研究、臨床試験、交絡調整、比較の妥当性、介入の評価、手術、術式、QOL、症状、後遺症

 

 

日本の消化器外科系の学会プログラム構成を見るに、前者(ハードアウトカム派)が圧倒的優勢であり、ソフトアウトカムを扱った演題などはほとんどありません。しかし、海外の学会では外科系の発表でも、patient-reported outcomeや、patient-centered outcomeなどという言葉をよく目にするようになり、その重要性が注目されています。

 

私個人としては、それぞれの研究者が、何を明らかにしたいのか、まずはその概念を明確にすることが大切で、その後に「より適切なアウトカム」を選択すべきだと考えています(分かりにくいですね、すみません。詳しくは後述する予定です)。

 

臨床研究においてアウトカムの選択肢は幅が広い方がよく、弱点を理解した上でソフトアウトカムも使いこなせるようになれば、より研究の質を高めることができます。ソフトアウトカムは、科学的観点から見ればアウトカムとしてまだまだ未熟だと言わざるを得ません。これを不要なものだと切り捨てることは容易ですが、ハードアウトカムだけの臨床研究にも限界があるのは明らかです(生存率の評価だけで癌の治療方針は決められませんよね)。

 

今後を見据えてソフトアウトカムを大事に育てていくことも必要です。そのためにも外科領域におけるアウトカムリサーチをもっと発展させるべきだと強く思っています。

 

外科、外科系、臨床研究、アウトカム研究、臨床試験、交絡調整、比較の妥当性、介入の評価、手術、術式、QOL、症状、後遺症

 

一方で、多勢に無勢、ソフトアウトカムへの強い偏見ともとれる残念な批判を見かけることがあります。一つの方向性への偏重は日本の臨床研究をガラパゴス化させ、未来を損なう危険があると感じています。

 

ソフトアウトカムを使用した経験が無い研究者の批判は、客観的に見て学問的でなく、見当違いな点が多いのですが、やはり実際にデータを収集し、自分の手を動かして解析を経験してみることが大事であろうと思っています。

 

QOLアンケートなんて・・・と毛嫌いせずに、その実際を一度ご覧になっていただければとの思いから、このページでは

 

消化器外科領域におけるソフトアウトカム

 

について私の関わってきた研究を題材に導入部分だけでも解説させて頂きたいなと思います。

ソフトアウトカムの測定

心理尺度の利用

 

もっとも一般的なソフトアウトカムにはPRO (Patient Reported Outcome)があります。

 

日本語では患者報告型アウトカムまたは 患者立脚型アウトカムといいます。

 

これらを計測するためには、心理尺度を使用することになります。

 

外科医には耳慣れない言葉がたくさん出てきましたが、どれも重要な言葉なので一つずつ整理していきましょう。

 

心理尺度とは、簡単に言えば、患者さんの何か主観的な思いを数値化するための質問票のことです。

 

医療アンケートといっても良いかもしれません。(あ、医療に限らずですね、自分で感じたことを記入するタイプのものであれば、広義の心理尺度と言ってよいと思います。)

 

外科、外科系、臨床研究、アウトカム研究、臨床試験、交絡調整、比較の妥当性、介入の評価、手術、術式、QOL、症状、後遺症

 

評価する対象は、何でもよいのですが、痛みや吐き気、だるさなど検査機器を用いても測定できないものを心理尺度で測定することが多いです。

 

このような、患者が自分自身で表現しないと分からないアウトカムを「PRO:patient-reported outcome」と言います。

 

PROの代表格は、「QOL(Quality of Life)」でしょう。

 

QOLを測定するためには、心理尺度を使用します。つまり尺度(アンケート)が検査機器の役割を持っています。その検査の信頼性や妥当性を、計量心理学的な手法を用いて検証して初めて尺度としての使用が認められます。

 

調査者が患者さんに聞きたいことを書き出して「自作アンケート」を作成して、実施するのも良いのですが、ただでさえ脆弱なソフトアウトカムの測定をいい加減にしてしまっては、学術研究として認めてもらうことが難しいのです。どのような尺度を用いれば臨床研究のアウトカムとして認めてもらえるか、まずは使用する前に尺度をよく評価する必要があるのです。

 

米国のFDAが薬剤の承認審査をする際に、PROをアウトカムとした臨床研究の結果を参考にすることがあるのですが、その際、どのような尺度でPROが測定されたかを明確に示すように指示しています。それを「PRO Guidance」といい、Web上でPDFファイルをダウンロードできます。下手な教科書よりも詳しく心理尺度の妥当性評価について書かれていますので、ご参照ください。

 

このように厳しい検証を経て完成された尺度をアウトカムとして用いる必要があります。

 

*しかし、たびたび水を差すようですが、尺度選びにとって本当に大切なことは、「信頼性・妥当性」だけではないのです。これは必要最低条件であり、もっとも重要なことはやはり「研究者が測定したい概念は何か」を明確にすることなのです。これについては「尺度使用上の注意」のページをご覧ください。

 

外科、外科系、臨床研究、アウトカム研究、臨床試験、交絡調整、比較の妥当性、介入の評価、手術、術式、QOL、症状、後遺症

 

包括的尺度と疾患特異的尺度

 

妥当性の検証がなされ、臨床研究のアウトカムとして確立された尺度には様々なものがあります。「包括的QOL尺度」として「SF-36」、「SF-12」などが有名です。包括的尺度とは何か?ということをお知りになりたい場合にはとにかく尺度の中身を見ていただくのが一番だと思います。SF36の版権を管理しているiHOPEさんのサイトからサンプルのPDFが確認できるようです。「尺度使用上の注意」のところで後述しますがとにかく、尺度について議論する場合にはその中身を知っておくことが第一だと思います。

 

包括的に対して、「消化器疾患」や「癌」などの特定の患者に用いられるQOL尺度を「疾患特異的」尺度といいます。消化器外科領域では癌患者のQOLを評価する尺度「EORTC-QLQ-C30」や「FACT-G」などが有名です。EORTC-QLQ-C30というのはEuropean Organisation for Research and Treatment of Cancerという組織が作ったQOL質問票、「Core30」という意味で、その名の通り、「癌患者に対する特異的な30項目の質問票」ということです。これも実際の質問内容を一度見ていただくことをお勧めします。さらに、この30項目に、臓器別の質問項目を追加した「モジュール」を組み合わせて使用することが多いです。胃癌だと「STO22」、大腸癌だと「CR29」などというモジュールがあり、それぞれ22項目、29項目の臓器別に特異的な質問が追加され、合計で、52項目、59項目の調査を行うというわけです。これらはあくまで「疾患特異的」なのであり、「治療特異的」ではありません。手術の術式や術後の後遺症について評価する際に適しているという保証はどこにもありません。しかし、多くの消化器外科医が外科介入のアウトカムとして利用しているのが現状です。

 

EORTC QLQ C-30の開発と同時期(1993年)に、日本でもQOL-ACD(The QOL Questionnaire for Cancer Patients Treated with Anticancer Drugs)という尺度を当時の厚生省研究班(栗原班)が開発しています。これは、その名の通り、化学療法患者のQOL評価に用いられるために開発されたもので、これも手術や外科治療を評価する目的で作成されたものではありません。

 

包括的尺度と疾患特異的尺度のどちらを使うべきか、ということについても研究計画を立てる際に良く吟味する必要があります。特定の疾患を研究するからと言って必ずしも疾患得的尺度が優れているとは限りません。「臨床のためのQOL評価ハンドブック 池上 直己 (編集)」という本に、尺度がどのように作られているか、また疾患ごとにどんな尺度があるか基本的な事項がよく整理されています。ご自身の研究テーマに合った尺度を探す際にはご参考になればと思います。ただし、発刊が2001年で少し情報が古いので、ここ15年くらいの情報はこのサイトでもUPしていきたいと思います。

 

蛇足ですが、この本にも書かれているとおり、QOLという言葉は、医学用語であり、また日常的なキャッチフレーズ的に使用されることも多く、やや混同されている臨床研究を見かけます。広義のQOLとはあらゆる生活の質全般を指しますので、たとえばその人の社会的ステータスや金銭状況、家族関係などあらゆるものを含みますが、医学的にQOLといった場合にはHealth-related QOL(健康関連(HR)QOL)のことに限定しています。このHR-QOLを測定するためのツールとして確立させたのがSF-36を代表とする心理尺度です。

 

最近はあまり見かけなくなりましたが、以前は発表演題名に「QOLを向上させる●●術式」というような謳い文句が書いてありながら、実際には傷が○○cm小さかったとか、日帰り手術が可能だったなどが主要アウトカムになっているような発表をしばしば見かけました。発表者のお気持ちは大変よくわかるのですが、これらのアウトカムが本当にQOLを向上させているかはSF-36などの尺度を用いて評価する必要があります。それをしないのであれば、あえて演題名に「QOL」の文言は入れないほうが無難でしょう。

 

=============

 

また、後ろ向き研究の発表に対して、「QOLはどうだったんですか?」という質問もしばしば見かけます。通常診療ではQOL調査票を実施しているとは考えにくく、多くの後ろ向き研究ではQOL評価は困難です(まれに、ルーチンでQOL評価を外来で行っている施設もあるようで、そのような場合は別として)。このような質問者の意図は、術後の栄養状態などを聴いている場合があり議論がかみ合わないこともあります。

 

 

消化器外科領域に使用される尺度例

 

私が消化器外科領域の臨床研究で実際に使用または解析した経験のある尺度は下記のとおりです。

 

 

VAS(Visual Analog Scale)
SF-36, SF-12 (包括的尺度) 
EORTC-QLQ-C30, FACT-G, QOL-ACD (癌特異的尺度) 
GSRS (Gastrointestinal Symptom Rating Scale)
ES4 上部消化管術後症状尺度
EGQ-D 上部消化管術後食生活QOL尺度 
mFIQL (直腸癌術後の便失禁・QOL質問票)
Continence Grading scale (Wexner Score)
GIQLI (Gastrointestinal Qualiy of Life Index))

 

 

 

各尺度については、上部消化管と下部消化管に分類して、それぞれ別ページにまとめましたのでご参照ください。
もちろんそのほかにも、心理尺度はたくさんあります。

 

Patient Centered Outcome

Patient Centered Outcome とは

 

さらに最近では、PROだけでなくPCO (Patient Centered Outcome)という言葉も学会でしばしば目にするようになりました。

 

Pubmedで検索すると、PRO 130,782件に対して PCO 3,944件ヒットします(2015年11月末現在)。

 

まだまだPROほどは定着していませんが、「患者中心型のアウトカム」といった意味合いでしょうか。

 

PROとPCOは似ていますが同義ではありません。

 

あまり日本語での解説が無いのですが、2015年に米国の外科腫瘍学会(SSO)の教育レクチャーを受けた内容から簡単に抜粋すると、

 

PCOは、患者中心のアウトカムという意味合いであり、PROの一部を含むが、ハードアウトカムの一部も含む概念である。QOLや、有害事象の程度などはもちろんPCOに含まれますが、たとえば、術後の鎮痛剤の使用回数や、ICU在室期間、医療費自己負担額などは患者の立場から重要で切実なアウトカムと言えます。このようなアウトカムもPCOに含めています。

 

この際、何が重要で切実かということがすでに主観的なので、結局はかなりグレーな部分も大きいのですが、例えば術後のCRP値などは明らかにPCOにはならないでしょう。

 

おそらくは「胃全摘後の術後の体重減少量または割合」というだけではPCOとは言い難く、標準体重・適正体重からどれだけ乖離しているか、という値であればPCOに含められるかもしれません。このあたりは、私の主観が入っております。あしからず。

 

なんとなくお分かりでしょうか?

 

 

 
 

トップページ 分析的観察研究 ブログ お問い合わせ