ビッグデータ解析とは？

トップページ＞ビッグデータ解析とは？

ビッグデータ解析とは？

臨床研究で注目されるビッグデータ解析とは

前項では、RCTの功績を理解したうえで、その限界も知るべきということを書きました。ここではもう一つ、大きな臨床研究の潮流として、「ビッグデータ解析」について触れておきたいと思います。私も米国ミシガン大学に留学させてもらったのはこの研究に触れることが目的でした。わが国の外科領域ではここ数年でNCDというシステムが整備されてきていますし、様々な学会、研究会などの団体が全国登録などを立ち上げ、データベース構築に取り掛かり始めています。広くは、国民マイナンバー制度も始まり医療制作にも大きなメリットがあると言われています。いったい何がどうなっているのかという疑問も若手外科医に多いようです。

「データベース研究」のサイトで、改めて詳述したいと思いますが、ここではRCTと分析的疫学研究の位置関係を明確化するためにも多少ビッグデータについても書いておきたいと思います。

ビッグデータの特長と影響

ビッグデータってどのくらい大きい？

現時点では「ビッグデータ」の明確な定義は無いと思います。数値的なものは扱う領域によっても変わってきますが、1000テラ＝1ペタバイト以上ものデータ量をイメージしています。

データには画像検査や、問診票、心電図など、数値化されてテーブルに並べられないようなものも含まれます。このようなデータを「非構造化データ」言います。ウェブ上にも非構造化データがあふれていますが、医療情報にも膨大な非構造化データが含まれており、今後扱うデータ容量は指数的に増えていくでしょう。

一般論として、ビッグデータの何が新しい特長かというと、４つの「V」と言われます。

Volume　（量）
Variety　（多様性）
Velocity （迅速性）
Veracity（正確さ）

これらの特長が与えた影響というのは、おそらく、

第一に、精度を放棄する
第二に、相関関係を重視する

ということではないかと理解しています。ひとつひとつ順番に見ていきたいと思います。

量が大きいということは

量が大きいのはその通りなのですが、ただ大きなデータというだけでなく、「全数解析」、というのがキーワードになってきます。臨床研究を例にとれば、胃癌について語るときに、限られた施設のデータだけでなく、日本や東アジア、ともすれば全世界規模の胃癌データを俯瞰してモノを言うということです。いままで論文に載っているようなデータは、大学病院やがんセンターのような専門施設のものが多く、その患者群は日本の代表的サンプルとは言えないということです。データそのものはきちんと管理され、フォローアップもしっかり記録されているものが多いので、データの質は高いと思いますが、患者の背景因子には明らかな偏りがあることが多いです。たとえば、私の経験ではがん専門病院のデータは明らかに特定の併存症患者が少なく、重複癌の症例が多いです。何かの癌で治療後、厳重にフォローアップされているうちに他の癌が見つかるケースが多く、重複癌症例が多いのは想像に難くないと思います。また、病院機能の限界として虚血性心疾患や腎不全の患者は扱っていない施設が多いです。全数解析というのは、量が大きいというだけでなく、2番目の特長、多様性を持つデータということになります。

ビッグデータ解析では、興味ある地域の患者全体を拾い上げて解析するということになります。これは行政のシステムがもう少し整備されないと容易なことではありません。日本の胃癌患者は年間の新規発生が10万人ほどと推定されて来ましたが、これは実は実数ではないのです。特定の地域で登録された患者から全体を推定した数値なのです。2016年からやっと全国がん登録が開始され、患者登録が義務化されますが、今まではこのような仕組みが無かったのです。これは欧米に比べるととても遅れていることなのです。

わが国の研究発表は、自施設やグループ施設の治療成績がいかに良いかということを示すことに主眼が置かれる傾向がありますが、米国人外科医は正直この手の発表をあまり信用していませんし、あまり興味もありません。治療は多様性があるのが当たり前で、地域によっては患者背景も違うし、結果が違うのも当たり前で、地域格差が出るのが当然。だからこそ、その要因を探して改善するための政策なりシステムづくりを提言をすることが重要、という観点での発表が多いです。

私も米国の外科診療や手術をこの目で見て、たしかに日本の手術手技は細かい部分においては優れている点も多いのですが、全体のシステム（教育や安全管理、労働環境の作り方など含め）としては圧倒的に米国が勝っていると感じました（保険の仕組みが違うとか、貧民層には行き届いていないなどの批判は甘んじて受けるとしても）。

迅速性とは

ビッグデータだから迅速であるというわけでは無いのですが、迅速性を意識したデータベース構築が必要だということだと思います。RCTの項で述べましたが、どうしても臨床研究は結果が出るまでの時間が長く、結果が出るときの状況が予想していたよりも変化してしまっていることがあります。たとえば、インフルエンザの流行に合わせて、ワクチンを適正に分配したいと考えた場合、どのような疫学データが必要でしょうか。去年の地域別罹患数などではあまりあてになりません。その時、その時のリアルタイムの状況が知りたいはずです。そのためにはどうしたらよいでしょうか。世界各国のFacebookやTwitterの個人が発信する情報などを拾い上げて感染の広がりをリアルタイムに表示できれば、利便性が高いですよね。このような仕組みを作るためには非構造化されたデータも扱うビッグデータ解析の様々な手法が役立ちそうです。迅速に結果を出す、ということが求められる場合にビッグデータ解析は非常に強みを発揮出来ると思います。外科領域においては、たとえばわが国のNCDや、米国のNCDBなどのデータは、1年ごとにデータをクローズして集積していくシステムなので、リアルタイムというわけにはいきませんが、それでも臨床試験よりは迅速性が高いということです。

正確さ？精度？それよりもNだ！

最後の正確さというのはビッグデータ＝正確なデータというと語弊がありそうですが、ビッグデータは精度を捨てて、数で押すし正確さを勝ちとる、という発想です。精度は高くないが、全体として正確であると言われるとよくわからないと思われるのも当然で、しばしば統計学の先生が、射撃の的の図を出して精密さと正確さの違いを説明していますね。多少いい加減なデータが含まれていても、何百万という件数のデータを集めればそういうものは無視できるということです。たしかに数学的には母数が大きくなれば当然偏差は小さくなります。国家予算を論じるときに10円、100円の細かい数値を出す人もいないように、国全体の疾患データを扱うのであれば個々の精度はあまり問わないということです。また、統計学的有意水準であるp値というのはNに反比例して小さくなりますので、ビッグデータ解析では非常に小さなp値がたくさん出てきてしまいます。情報が多すぎるとかえって何が重要なのか分からなくなったり、本当に重要なことが埋没してしまったりします。このあたりが、厳密なRCTを好む研究者がビッグデータ解析を信用しない主な要因になっています。

相関関係が分かれば予測できる

ビッグデータが好まれないもう一つの理由として、因果関係を追及しないでよいという考え方にあります。当たり前ですがRCTは、介入に効果があるかどうかを検証するもので、介入と結果の因果関係を証明するために行います。逆に、因果関係を証明するためにはRCTを超えるものは無いのです。ビッグデータ解析では、リアルタイムを追及すること相反するのですが、時間的な因果関係を立証しにくい、できない、という点が重要です。多くは横断的、または要因からアウトカムが非常に短い研究になります。なので、相関関係は言えても、因果関係は言えないことが多いです。

有名な例ではAmazon.comの成功があります。言わずと知れた通販サイトですが、ここで本を買うと、「この本を買った人はこんな本も買っています」というリストが出てきます。この機能は、本の購入履歴の相関関係から、リストアップされているのです。オンラインショッピングがここまで一般的になる前までは、書店では店長さんが売れ筋の本と関連する本などをうまく並べて購買意欲を刺激するようにしていたのだと思います。それは店長さんがいろいろ書評などを読んで勉強し、この本を買う人は、この本にも興味があるはずだ、という因果関係に着目した戦略だと言えます。しかし、現実はそうでもありませんでした。たとえばハリソン内科学を購入した人が、同時に中山内科学を購入するということはあまり無いのではないでしょうか。

そこで、Amazon.comはビッグデータによる相関解析を利用しました。過去の購買履歴からハリソン内科学を買った人が同時期に購入した書籍を網羅的にピックアップし、相関係数を出していくわけです。そうすると、類似の本以外のものもピックアップされてきます。たとえば（あくまでたとえ話ですよ、実際は知りません）ゴルゴ13のコミックが高い相関を示すかもしれません。こういう本も同時におススメされてしまうわけです。

もしかしたら、医者の当直室にゴルゴ13が高い確率で置いてあることと関連があるかもしれません(笑)。しかし、ビッグデータ解析ではそんな因果関係などどうでもよいのです。本が売れれば良いのです。なので、どういう客層だから、どういう本を呈示したらよい、などの理屈は抜きにして、ひたすら相関係数の高い本（一緒に購入される確率が高い本）を紐付すればよいということです。

分析的観察研究, propensity score matching, gastrectomy, laparoscopic surgery

このように、ビッグデータは因果関係にはこだわらず、ひたすら相関を網羅的に示していくことで今後の展開を予測するということに利用価値が高いと考えられています。好む、好まないはともかく、このような手法をどうやって医学に役立てていくかを考えねばなりません。RCTにも原理主義者がいるように、ビッグデータにも信奉者がいます。ビッグデータは、前述のとおり網羅的な相関関係を示すことができますが、それらを都合よく組み立ててしまうと、好き勝手な議論を構築することが簡単に出来てしまいます。いままで後ろ向き研究では、そういう後出しじゃんけん（アウトカムレポーティングバイアス）に厳しい目が向けられてきましたが、最近はビッグデータの流行・乱用に任せて、古典的な臨床研究の質をチェックする機構が作用していないことがあるように見受けられます。

適正利用と公共性

ビッグデータを使って研究するには

ビッグデータの解析結果が暴走してしまうと医療に与える影響も大きいので研究者の倫理はもちろん、方法論の理解は必須になります。解析はアウトカムをブラインドされた専門家に依頼するなどの方法が良いかもしれません。

現状ではDPCデータにせよ、NCDデータにせよ、一部の研究者にしか中身を見ることが出来ませんが、本来は国家規模のデータは国民全員のものです。皆で自由に閲覧し、大勢の目で、さまざまな視点で、結果を議論すべきです。しかし実際はそうではありません。DPCデータなどは限られた数人しか中身を知り得ません。NCD入力は病院の負担（事務および臨床医）によって成り立っているにも関わらず、病院側はデータを入手できません。

一方米国では、癌関連の医療ビッグデータである「NCDB」や「SEER」の生データの入手は比較的簡単です。私のような留学生ですらその「生データ」を扱って研究をしていました。このような懐の広さが、医学界におけるアメリカの圧倒的な研究発信力のパワーになっているのだと思います。今後わが国でも、臨床医や研究者の理解が深まっていけば、もっとアクセスを緩くし、皆でデータを共有し、同じ土俵で議論していく環境が出来てくると信じたいと思います。そのためにも、臨床研究の方法論を学んでいく姿勢は大切だと思っています。

分析的観察研究