Surgical Outcome Research and Innovatiove Collaboration

ソフトアウトカムを用いて術式を評価する

実際の臨床研究におけるES4/EGQ-D使用例

 

(内容の一部は2015年日本胃癌学会総会(広島)で発表したものと重複します)

 

ここでは幽門保存胃切除術の評価を行ってみたいと思います。

 

幽門保存胃切除術(pylorus preserving gastrectomy; 以後PPG)は胃の中部にある早期胃癌に対する縮小手術の一種です。
下図の如く、病変を含めて胃を分節的に切除し、そのまま胃と胃を吻合する術式です。

 

消化器外科、アウトカム研究、QOL、ES4、交絡調整、比較の妥当性、介入の評価、手術、術式、幽門保存胃切除術、PPG

 

ちなみに標準的な術式である「幽門”側”胃切除術(Distal gastrectomy;以後DG)」は下図のように胃の肛門側を2/3以上切除し、残胃と十二指腸を吻合します。
消化器外科、アウトカム研究、QOL、ES4、交絡調整、比較の妥当性、介入の評価、手術、術式、幽門保存胃切除術、PPG

 

2つの術式を比較すると、切除胃の大きさはPPGの方が少なく、術後の残胃機能も有利であろうと考えられますが、一概にそうとも言えず、残胃容積の割に、蠕動が弱く、食物が停滞してしまうことも知られています。

 

考えてみれば、腕や足を輪切りにして、そのまま繋ぎなおしたとしてもすぐに十分な機能が回復するとは思えません。同じように胃も輪切りにしてつなぎなおしているPPGや分節切除がすぐに機能を取り戻すとは考えにくいような気もします。

 

PPGとDGにおける残胃の機能評価

 

胃術後の残胃機能をどうやって評価するかという議論がありますが、結論から言うと、機能評価の方法は確立していないと思います。

 

そもそも、残胃の機能評価とはいったい何でしょうか?これもしばしばQOL評価、症状評価と混同されているように思えます。
これまで何度も申し上げている通り、概念を明確にしていきましょう。

 

「残胃の機能を評価する」 とは、正常の胃の機能と比較してどのように(どの程度)変化(悪化)しているかを調べる ということではないでしょうか。

 

では正常の胃の機能とはなんでしょうか。一般的に胃の機能とは

 

  1. 食物の貯留・撹拌
  2. 胃液の分泌(食物の粥状化・殺菌)
  3. 消化・吸収の一部
  4. 内因子やホルモンの分泌(グレリンなど)

 

が挙げられます。すなわち胃切除後の残胃における上記の機能を評価することが、残胃機能評価ということになります。

 

ここで重要なことは、いくら「アンケート調査などを詳細に行っても、機能を直接見ているわけではない」ということです。

 

例え、患者さんが「上腹部が張っている感じがする」と訴えたとしても、あくまでそれは自覚症状です。多くの外科医が想像するように、食後の胃の蠕動が弱くなったためにそのような症状が生じているのかもしれませんが、本当にそうかどうかは、造影検査などをしてみないと分からないのではないでしょうか?

 

以前に、「機能を評価するための質問票」なるものを見かけたことがありますが、これは構成概念に問題があるように思います。このサイトの冒頭にも書いたように、患者の感じていることを数値化するのが「心理尺度(質問票)」なのです。

 

胃の膨満や、胸焼けなどの症状が、「機能障害」によって引き起こされているのか?、「器質的障害」によって引き起こされているのか?、はたまた「精神的・心理的要因」によって引き起こされているのか?、を鑑別することはできないのです。

 

ですから、心理尺度を用いて「機能を評価する」ことはできないし、する必要がないのです。機能を評価したければ、機能を評価するための検査を行えば良いのです。たとえば、胃切除後は胃酸の分泌機能が低下し、胃内の殺菌能が低下する、という「機能障害」を評価したければ、残胃のpHを測定したり、細菌学的な検査を行ったりすべきなのです。アンケートで下痢が多いから、機能が障害されているなどと短絡的に考えるべきではないのだと思います。

 

話を戻しますが、それではPPG術後にどんな機能評価を行ったらよいのでしょうか??
既存研究を見てもゴールデンスタンダードと言える検査は無いようです。

 

そこで私は外科医がイメージしやすいように、まずは造影検査を行ってみることにしました。
この動画は、PPG術後の患者さんの造影検査時のものです。

 

 

2名の患者さんに協力してもらっています。前半の方は残胃が大きく、蠕動も良く、うっかりすると術後胃とは思えないほどです。後半の方(30秒後以降の動画)は、胃の中にもやもやした塊がたまっており多量の残渣が停滞しているのが分かります。造影剤の流れは悪くなさそうです。

 

さて、この2名の患者さん、どんな人物像をイメージしますか?

 

前者の方が術後経過年数が長く、臨床症状が良い
後者は食後の膨満が強い、術後経過年数が短い、

 

のではないかと思いませんか?

 

しかし実は、逆なのです。前者は術後半年、後者は術後1年の検査で食事の摂取状況はどちらもそれなりに良好なのですが、どちらかといえば後者の方が良い印象でした(私の主観ですが、検査前に問診しています)。後者はあれだけの食物残渣がありながら、ほとんど自覚症状が無く、何でもおいしく食べられていますということでした。

 

このような経験から、残胃の機能評価とはなんと難しいものかと、愕然とした記憶があります。

 

造影以外にも、13C呼気試験やRI胃排出検査など有名なものがあります。RIや24時間pHモニタ、ホルモン値の測定などの検査は経験したことが無いので機会があればぜひやってみたいのですが、13C呼気試験は、ヒト臨床および動物実験で利用したことがあります。かなり厳密な条件で測定したのですが、誤差範囲が大きすぎて標準的には使用しにくいという印象を持っています。

アウトカムとしての機能評価とPRO

さて機能評価とPROの結果が一致しないのではないかということを述べました。

 

真のエンドポイントとは、のところで述べたように、機能評価検査とPRO、どちらが真のエンドポイントになり得るでしょうか?

 

言うまでもありませんね。

 

このような経緯から、以降本研究ではPPGの評価をPROで行うこととし、

 

新規に開発した上部消化管術後症状尺度 ES4 と、 食生活のQOL尺度 EGQ-D を用いて、 DGとの比較を行うこととしました。

研究概要

 

対象: 201X年1月〜201X年12月の1年間に○○病院でDGまたはPPGを施行された胃癌患者の連続症例。
(再建術式、アプローチ、使用デバイスは問わないこととし、術後補助療法施行患者は除外した。)
症例数: N=198; DG=125, PPG=73

 

評価項目:
 1.ES4得点の経時的変化
 2.EGQ-D得点の経時的変化
 3.食事摂取量の経時的変化
 (患者の自己評価;術前と比べて何割くらいの量が食べられていますか?というざっくりした質問をした。)

 

評価: 術後1か月、3か月、6か月、12か月後における縦断調査。
     各時点での上記項目の比較。

 

結果

ES4得点の推移

 

細かい患者背景や統計学的解析などはとりあえずおいておくとして、ここではソフトアウトカム測定の意義について考えてみたいと思います。
まずES4の総合得点を示します。

 

Figure1
消化器外科、アウトカム研究、QOL、ES4、交絡調整、比較の妥当性、介入の評価、手術、術式、幽門保存胃切除術、PPG

 

EORTCなど多くの尺度も同様ですが、症状スコアは「点数が高い方が症状が悪い」ことを意味します。
逆に、これも多くの尺度がそうですが、QOLスコアは「点数が高い方がQOLが良い」ことを意味します。

 

ざっと見て、総合得点からはPPG、DG両者の得点差は小さく、明らかにどちらが良いということはなさそうです。いままでのPPGに対する既存研究でも、自作のアンケートなどを使用した評価がいくつかありましたが、このようなあまりパッと目に見える結果にはならないことが多かったようです。そこで、ES4の下位尺度得点を見てみることにします。

 

Figure2
消化器外科、アウトカム研究、QOL、ES4、交絡調整、比較の妥当性、介入の評価、手術、術式、幽門保存胃切除術、PPG

 

何度でも申しますが、やはり構成概念というものがいかに重要かということが示されたと思います。この結果は2つの大きな特徴を示しています。すなわち、「腹部膨満症状(ADS)がほぼ同等」、「食事関連全身症状(DIS)でPPGが明らかに良い」ということです。これは明らかにPPGの特徴を反映しているものと思われます。DISはいわゆるダンピングの全身症状に近いものを見ているわけなので、PPGのように食物が急激に小腸に流出しない術式ではこの結果は合理的です。また、お腹の張りのような症状はDGとあまり差が無く、この部分の得点が非常に高いため、全体の得点差が出にくくなっていることが分かります。

 

つまり、胃術後の患者さんの多くは、腹部の張りを訴えることが多く、その発生頻度が高いため平均スコアがかなり高くなってしまう(40点前後まで上昇する)、DISは発生頻度が比較的低く、稀な病態であるため(DG後ダンピング症状の発生は20%以下)平均得点が低く、せいぜい13点程度の上昇なので全体の得点にあまり影響しない、というような性質が明らかになりました。

 

このように多因子性の尺度は、その中身をよく吟味し病態生理と照らし合わせて臨床的に合理的な結果であるかどうかを評価し、術式の特徴をつかんでいくことが重要だと思っています。

 

つづいて、食生活QOLスコアとしてのEGQ-D得点と、(術前と比較した)食事摂取量の自己申告の平均値を示します。

 

Figure3
消化器外科、アウトカム研究、QOL、ES4、交絡調整、比較の妥当性、介入の評価、手術、術式、幽門保存胃切除術、PPG

 

食事摂取量は1年後になると明らかにPPGの方が多く食べられている様です。また、一貫してEGQ-DのスコアがPPGで良好であり、食生活の質はPPGの方が良さそうです。

 

これらのことから考察できることは、症状は全体として大きな差が無いが、DISはPPGで少なく、食事のQOLはPPGでよさそうであるということです。
DISは食事によって誘発される全身症状のことですので、これも合理的な結果だと思われます。

 

臨床研究を行う上で、QOLはやや質問の内容がぼやけることから、PROの中でもよりソフトなアウトカムと言えます。ちょっとした術式の違いなどはなかなかQOL調査票では差を見出すことが出来ないのが当たり前で、QOLをエンドポイントにした優越性試験などはまだまだ実施可能性が低いと思われます。そこで、QOL調査は行わず、症状だけを調査する研究者もいます。

 

私の意見としては、質問項目があまり多くならないのであれば、症状だけでなくQOLも両方調査することをお勧めしたいと思います。

 

なぜなら、今回の結果のように全体として症状はあまり差が出なかったけれど、QOLではPPGが良さそうであるという結果が出ることもあるからです。症状は、食事の制限や行動範囲の縮小によってある程度緩和することが出来ます。

 

食事を我慢して、症状を抑え込んでいる患者さんを想定した場合、症状評価だけでは良好なスコアになってしまいます。しかし、食生活のQOLを上げることは患者個人の努力ではいかんともしがたいものです。今回の結果から、(もう少し質的な調査も追加してみると明らかにできるかもしれませんが)PPG術後の患者はDG術後患者と比較して食事をあまり制限せずに日常生活を送ることができているのかもしれないと、考察しています。
このような観点から、術式の評価においてはQOL評価と症状評価の両方が必要ではないかと考えています。

 


トップページ 分析的観察研究 ブログ お問い合わせ