臨床試験/臨床統計

臨床試験 差があるということ② 信頼区間について [★★]

投稿日:2019年3月17日 更新日:

※すみません。一端アップしたのですが、書き直しました。読まれていた方、突然消してしまい申し訳ありません。

実薬群とプラセボ群の値に差があるかどうかを確かめる方法として、前回は検定とP値について説明しました。
検定を行い、P<0.05であった場合に95%以上の確立で差があることとなり、これを統計学的に差がある(有意な差がある)とされることが多いという話をしました。
なお、P<0.01だと99%以上の確立、P<0.001だと99.9%以上の確立で差があることとなります。

今回は別の観点から、統計学的な差を考えていきます。
上記の話と似ているのですが、違うものとして考えてください。
「95%信頼区間」について今回は説明します。
以下の例を理解することを最終目標としておきます。

———————————————————-
実薬群では患者さん20人の平均値が80であり、95%信頼区間が65~90であったとします。
一方で、プラセボ群では患者さん20人の平均値が60であり、95%信頼区間が45~80であったとします。
この場合に、実薬群とプラセボ群に差があるかどうかを考えることにします。
———————————————————-

まず、信頼区間とは何者かについて説明します。
「実薬群=実薬を投与した患者さんの集団」の方でまず説明しますと、今回は20人に対して投与したところ、たまたま平均値が80になっています。
異なる患者さん20人を連れてきて、実薬を投与してみると、平均値が若干変わってくることは想像できますよね?
異なる20人では平均値が今度は70になったとします。
それでは、別の20人では?今度は平均値が85になりました。
という風に、色んなところから20人を集めてきて、その20人について平均値を求めると、色んな平均値が得られます。

これを繰り返して、20人ずつの平均値が以下のようになったとします。

<20人5セットの各平均値>
①はじめの20人…80
②次の20人…70
③その次の20人…85
④その次の次の20人…67
⑤その次の次の次の20人…88

色んな平均値が得られましたが、どれが真の平均値なのでしょうか?
真の平均値について、例えば「日本人に実薬を投与した場合の真の平均値は?」ということであれば、1億人以上の日本人全てに実薬を投与してその平均を求めたものが真の平均値ですが、そんなことはできませんので真の平均値というのは実際には求めることができません。

ですが、真の平均値を推定することはできます。
先ほど、20人5セットの各平均値をお示ししましたが、95%信頼区間も同様に5セット得られます。

<20人5セットの各平均値と95%信頼区間>
①はじめの20人…平均値80、95%信頼区間65~90
②次の20人…平均値70、95%信頼区間60~85
③その次の20人…平均値85、95%信頼区間72~93
④その次の次の20人…平均値67、95%信頼区間50~70
⑤その次の次の次の20人…平均値88、95%信頼区間74~96

これを100セット繰り返すと95%信頼区間も100つ得られますが、その100つの95%信頼区間のうち95個は、その区間の中に真の平均値を含んでいることになります。
これが95%信頼区間の意味です。
なお、真の平均値のことを母平均といいます。

分かり難いので先ほどの例で説明しますと、母平均が仮に75であった場合、先ほどの5セットのうち、①②③⑤は95%信頼区間に母平均である75を含んでいますよね。
一方で④については母平均を含んでいません。

これが100セットあったとき、95セットは信頼区間のバーの中に母平均が含まれ、5セットはバーの中に母平均が含まれないというのが、95%信頼区間の意味です。
※真の平均値(母平均)は動かないので固定し、バーが動くというイメージ

「99%信頼区間」の場合では、100セット中99セットのバーの中に母平均が含まれ、1セットはバーの中に母平均が含まれないということを意味しています。

それでは最初の例に戻ります。

———————————————————-
実薬群では患者さん20人の平均値が80であり、95%信頼区間が65~90であったとします。
一方で、プラセボ群では患者さん20人の平均値が60であり、95%信頼区間が45~80であったとします。
この場合に、実薬群とプラセボ群に差があるかどうかを考えることにします。
———————————————————-

通常では、各群のセットを何組も作るということは行わず、1セットしかないのが基本ですので、この1セットのみで実薬群とプラセボ群を比較することになります。

図示してみますと、以下のようになります。

上に実薬群、下にプラセボ群を示しました。
95%信頼区間をバーで示しています。

それでは、実薬群とプラセボ群を比較してみましょう。
実薬群とプラセボ群のバーが重なっていますよね。

95%(仮に100セット行った場合は95セット)の確立で真の平均値(母平均)にバーが乗っかることを考えますと、実薬群とプラセボ群のバーが重なっている部分に母平均がある可能性も考えられますので、実薬群とプラセボ群の母平均が同じである場合や、逆にプラセボ群の母平均の方が実薬群よりも大きくなる可能性もありますね。
よって、今回のように95%信頼区間が重なる場合は、実薬群とプラセボ群に統計学的な差は認められない、と結論づけます。

それでは、統計学的に差がある場合をみてましょう。

こちらの例では実薬群(上)の95%信頼区間の下限値(最も小さい値)が65、プラセボ群(下)の95%信頼区間の上限値(最も大きい値)が60であり、信頼区間が重なっていません。
実薬群では母平均に信頼区間(65~90)が乗っかる確率が95%、プラセボ群では母平均に信頼区間(45~60)が乗っかる確率が95%であることから、実薬群とプラセボ群の母平均に差がある可能性が高いことになります。
よって、95%信頼区間が重ならない場合は、実薬群とプラセボ群に統計学的な差は認められる、と結論づけます。

~まとめ~
・実薬群とプラセボ群の95%信頼区間が重なる → 統計学的な差はない
・実薬群とプラセボ群の95%信頼区間が重ならない → 統計学的な差が認められる

いかがでしたでしょうか?
前回と今回は実薬群とプラセボ群の値を直接的に比較することを例にとりましたが、実際には実薬群とプラセボ群の差について比較する、群の比較ではなく、例えば実薬群のみでベースラインからの変化に差があるかを検討する、など色んなパターンがありますので、次回は補足的に説明します。

<Sponsered Link>



-臨床試験/臨床統計