臨床試験/臨床統計

臨床試験 検定における多重性の問題 [★★]

投稿日:2019年9月29日 更新日:

長い間更新できずにすみません。
仕事がやっと一段落しましたので、続きを書いていきます。
自分自身、何を書いていたのか、完全に忘れておりました…

さて、今回はP値がらみの話で、検定における多重性ということについて説明します。
P値については説明していましたね。
A群の値とB群の値を比較したときのP値が0.05未満(P<0.05)であれば、A群とB群の値に統計学的な差があることを説明しました。

臨床試験では、例えば実薬群とプラセボ群の効果などについて、有意な差がでてほしいですので、臨床試験を行う側としては、P<0.05となることを願っているわけです。

例えばあるスコアについて、実薬とプラセボを比較します。
①投与1日後のスコア…P<0.05とならなかった
②投与2日後のスコア…P<0.05であった
③投与3日後のスコア…P<0.05とならなかった

①~③では2日後のスコアしか、P<0.05となってないので、実薬とプラセボで差があるのかどうか微妙ですね。

そこで、「それじゃあ、4日後、5日後…10日後まで繰り返して検定して、P値を算出しよう」として以下のような結果が得られたとします。

④投与4日後のスコア…P<0.05であった
⑤投与5日後のスコア…P<0.05であった
⑥投与6日後のスコア…P<0.05とならなかった
⑦投与7日後のスコア…P<0.05であった
⑧投与8日後のスコア…P<0.05とならなかった
⑨投与9日後のスコア…P<0.05であった
⑩投与10日後のスコア…P<0.05であった

お!P<0.05が結構得られたので、「投与2日後、4日後、5日後、7日後、9日後、10日後」において、有意な差が認められたことをアピールしよう!

これ、どう思われますか?
実は、検定を繰り返し何度も行えば、P<0.05が得られる確率が高くなることが分かっています。

サイコロで考えると、例えば6の目があたりだとして、1回サイコロを振った場合は1/6(16.7%)の確立でしか6は得られないのに対し、2回サイコロを振れば6が出る確率が高くなってしまいます。
(ちなみに、2回サイコロを振って6が出る確率は、{1-(6が出ない確立×6が出ない確立)}×100={1-5/6×5/6}×100=11/36×100=30.6%です)

P値は確立ですので、サイコロと同じ性質を持っています。
そうすると、検定を何度も行えば、いずれよい結果が得られるということになりますよね?
実薬とプラセボを比較する際、比較する項目を無限にしてしまえば、何かしらの項目でP<0.05となりますので(100%ではないが、かなり確立が上がる)、そのような評価の仕方はよくないのです。

この、検定を繰り返し行うことで、何らかしらの項目に有意な差が得られてしまう問題を、「多重性の問題」と言っています。
(多重性は英語でmultiplicityと書きます)

古い論文では、この多重性を考慮せずに、繰り返し検定を行い、あたかも良い結果が出たかのように、結果を掲載している論文も多々あります。
代表例をお示しします。

このグラフは前に↓の記事で用いたものなのですが…

臨床試験 差があるということ④ 補足(群内での経時変化、ベースラインからの変化量) [★★]

星が色んなところに散在していますよね。
たくさん有意差が得られたということを自慢しているような結果ですが、多重性について全く考慮されていない、実は何の意味もないデータと言えます。

このことを考えますと、P<0.05を有意としたときには、検定は1回のみ行われるべきでなのです。
評価項目が異なっていても同じです。
例えば、副次評価項目を10個定めて、それぞれの項目で検定を行えば、どれかの項目でP<0.05となる確率は上がります。
(だから、1項目1時点に定められた主要評価項目でのみ臨床試験の成否は決定されるということで、副次評価項目はやっぱりおまけなんですよね)

ただ、臨床試験では様々な項目を検討したいということがありますので、多重性問題を解決する策というのがあり、それをきちんと行っている試験は、質が高いといえるかと思います。
(最近では多重性を考慮している論文が増えてきましたが、それでも、多重性考えずにガンガン検定している論文もみられます)

それでは、多重性を考慮する方法について説明します。

①有意と判断するPの値を調整する
一つ目は、有意と判断する際のPの値を補正する(低くする)という方法があります。
よく見かけるのが、ボンフェローニ法(英語でBonferroni)です。
この方法では、0.05を検定した回数で割り、その値を有意判断するP値の閾値とします。
例えば、2回検定した場合には、0.05÷2=0.025をP値が下回った場合に有意と判断します。
5回検定した場合は、0.05÷5=0.01が閾値となります。

ただ、この方法は有意になりにくくなってしまうという欠点があります。

②検定する項目の順序を定める
例えば5つの評価項目A、B、C、D、Eがある場合、その検定の手順を定めて、以下のように行います。

Aを検定し、有意差が出た場合のみ以下に進む
(有意差が出なかったら、他の項目は検定せずに終了とする)

Bを検定し、有意差が出た場合のみ以下に進む
(有意差が出なかったら、他の項目は検定せずに終了とする)

Cを検定し、有意差が出た場合のみ以下に進む
(有意差が出なかったら、他の項目は検定せずに終了とする)

Dを検定し、有意差が出た場合のみ以下に進む
(有意差が出なかったら、他の項目は検定せずに終了とする)

Eを検定する

この方法では、Pの値を調整する必要はありません。いずれもP<0.05を用いられます。

それでは、なぜこの方法では問題が出ないかを簡単に説明します。
1回のみ検定を行った場合は、結果として[有意]と[有意でない]の2通りがあります。
それに対し、順序を決めずに2回検定を行う場合、
[有意、有意]、[有意、有意でない]、[有意でない、有意]、[有意でない、有意でない]
の4通りがあり、有意となるのは4通り中、3通りとなっています。
これが多重性の問題につながっています。

検定の順序を決めてしまえば、この●通りが増えることがありません。
例えば上記でAが有意→Bが有意→Cを検定 と進んだとします。
このとき、以下の場合があります。
[Aが有意、Bが有意、Cが有意]
[Aが有意、Bが有意、Cは有意でない]→この場合は終了となる

一方、Eまで進んだ場合、以下の場合があります。
[Aが有意、Bが有意、Cが有意、Dが有意、Eが有意]
[Aが有意、Bが有意、Cが有意、Dが有意、Eは有意でない]

いずれの場合も2通りしか存在しません。
このように、場合の数が増えないので、多重性の問題が出ないこととなります。

なお、この方法を閉検定手順と呼んでいます。

久々の記事でしたが、いかがでしたでしょうか?
次回は今回の話も関係ありますが、αエラーとβエラーについて説明します。

<Sponsered Link>



-臨床試験/臨床統計