ES4の内容と妥当性検証
まずは質問紙のデザインをご覧ください。
では、ES4の中身をご紹介します。これが1ページ目です。
通常のアンケートと少し違いがあります。
この調査票は、まず症状の有り・無しを決定し、症状が有ると答えた方が続いて、症状の程度を決定する仕組みになっています。
本来、症状の聴取方法には「頻度」と「程度」の2通りがありました。
頻度とは、どのくらいの間隔でその症状が出現するのか、ひと月に数回程度なのか、それとも毎日のように出現するのか、
程度とは、1回の症状がどの程度の重さなのかということです。
頻度は多くても軽い症状なのか、頻度は少なくても一旦出現すると非常に重い症状が有るという可能性もありえます。
そのため当初は
のように頻度を5段階、程度を5段階に分けて聴取していました。
しかし開発の過程で、頻度よりも程度が重要であることが分かり、また、回答者の負担軽減も必要であるということから、最終的にこの形式で聴取することに決定しました。
アウトカムの出し方には2通りがあります。
症状の有り無しだけを知りたい場合には、0か1以上かで2値変数として用いることが出来ますし、
程度も含めて評価したい場合には、0から4の5段階の間隔変数として使用できます。
また、症状が出現した患者に限定して、その場合の症状の程度を比較することは可能です(例えば、有症状の患者をピックアップして内服療法の効果を検討する場合など)。その際には、0点の患者を除外して比較することが出来ます。
ただし、全身症状のみは出現頻度が少なく、0点になる患者が多いため結果が正規分布せず統計学的な検定には不向きです。
妥当性の検証
妥当性検証とは
尺度の妥当性検証の方法については、計量心理学関連の書籍や、Webサイトも含め充実した解説がたくさんあります。
ただし用語の整理つかないと読んでいてわかりにくいと思いますので、ここでは細かい解説は抜きにして、大きく、妥当性評価の用語をおおざっぱに分類して整理してみます。
心理学の専門家から見れば間違っている部分もあるかもしれませんが、ここではとりあえず外科医を対象に書きますので、細かい点はご容赦ください。
私の理解では、妥当性検証は、まず大きく
1.尺度の中身(内側を見た際)の妥当性
2.尺度の外見(外側から見た際)の妥当性
に分けます。分かりにくいですね。まずは、おおざっぱに・・・。中味・外見は私の造語です。
中身とは、その尺度の内容や概念が妥当かどうかです。以下のような検討をします。
・内容的妥当性・・・尺度の各項目内容が(ある程度)聴きたいものを聞いているか
・構成概念妥当性・・・その概念の構造はどうなっているか、因子分析による評価に耐えられるか
・信頼性・・・同じ状態の同じ人が何度答えても同じ回答になるか。(これは区別して表記することもありますが、私の意見としては「中身の妥当性」に入れて良いと思います)。
内容的妥当性は、専門家の意見を聴いたり、実際の患者さんを面接して、たとえば特定の疾患や病態に関する質的な調査を行ったうえで、評価します。抜け落ちている項目が無いか、余計な項目が無いかを評価します。
構成概念妥当性は、因子妥当性とほぼ同義と考えて良いと思います。各項目がどのような因子構造になっていて、どのような概念で説明可能か。これは研究者の考えが濃厚に入ってきます。ES4に関してはこの部分で大変に苦労したということをお伝えしたと思います。誰が見ても納得できる概念を構成する、このことが尺度開発の肝中のキモと言えるでしょう。
外見とは、他の基準との相関から尺度の妥当性をみる、ということです。
ES4の開発研究では、包括的QOL尺度、SF12スコアを同時に調査しており、そのスコアとの相関を見ました。これを併存的(同時的)妥当性といいます。
この図表の読み方がちょっとややこしいかもしれませんが、まず患者を3群に分けます(ES4得点が低い=黒、中間=灰、高い=白)。一般的に症状尺度においてはスコアの高い方が症状が重く、状態が悪い患者が含まれています。
黒バーのES4得点が低い(症状が軽い)患者群は、白バーのES4得点が高い(症状が強い)患者群と比較してSF-12のQOL得点が低い、ということです。
(PCS, MCS, RCSはそれぞれSF-12の下位尺度で、身体的QOL, 精神的QOL,社会役割的QOLをスコア化したもの)
このような傾向を見ながら、開発した尺度との関連に矛盾が無いか見ていきます。症状が強い患者の方がQOLが高いなどという結果が出てしまうと、その尺度が妥当なものであるとは言いにくいですよね。
また、消化器症状が強くなると食事摂取量に影響を及ぼし、結果として体重が減少するのではないかという仮説から(術後患者に妥当性の認められた症状尺度というのはこれまでになかったので、真実は分からない。あくまで仮説。)、それらの臨床所見との関連をグラフ化して、妥当性を示しました。
同様に3群の患者において、症状が強いほど食事の摂取量が減っていくことが示されました。
じつは食事摂取量を厳密の測定するのは非常に難しく、結局この研究では、かなりおおざっぱに、「病気になる前の摂取量を10としたとき、現在の食事摂取量はどのくらいですか?」という質問を追加し、その回答と比較したわけです。
このような質問自体がかなり主観的で正確性に欠けると思われると思いますが、その通りです。このように、尺度の妥当性を認めてもらう絶対的な基準というのはなく、なるべく多くの関係者(医療者や患者さん)が納得いくように外堀から少しずつ埋めていき、尺度の特性や概念を明らかにしていく作業なのです。
この研究では、そのほかにアルブミン値やリンパ球数、コレステロール値などの栄養指標、それから内視鏡検査の結果なども一通りデータ収集しており、すべてのデータを論文に出したかったのですが紙面の都合もあり、利用者に分かりやすい結果を厳選して出させてもらったということです。