前回は評価項目について説明しました。
例えば実薬群とプラセボ群について、定められた評価項目について評価するわけですが、実薬群がプラセボ群に比べて効果が高いことはどのように示されるのでしょうか?
まずは下の2つのグラフの例をみてみましょう。
(ベースラインからの変化量を示したグラフで、スコアが高いほど改善したとします)
左のグラフも右のグラフも実薬群では平均値20で、プラセボ群では平均値16となっています。
平均値だけでみるとプラセボ群に比べて実薬群の方が4ほど多く改善しているようにみえますが、本当に実薬群の方が改善したと言い切れるものなのでしょうか?
一端左右のグラフの違いを考えてみましょう。
左のグラフは誤差を示す標準偏差(SD)のバーが小さく、右のグラフは誤差を示すSDのバーが大きいことがみてとれます。
左のグラフでは誤差が小さいですので、実薬群の各患者さんの「ベースラインからの変化量」は20付近の方が多いと考えられます。
プラセボ群の方も誤差が小さいですので、16付近の方が多いと考えられます。
よって、左のグラフでは、実薬群とプラセボ群に差があり、実薬群の方が効果が高いということが何となく言えそうです。
それでは右のグラフではどうでしょうか?
平均値の差はあるものの、バーの上限をみると実薬群とプラセボ群の両方とも30近くまでいっています。
このことから、実薬群で30近くまで改善している患者さんもいれば、プラセボ群でも30近くまで改善している患者さんもいると考えることができます。
そして、実薬群もプラセボ群も、患者さんごとにかなり数値がバラついていると考えられます。
よって、平均値だけみると実薬群のほうが改善していそうにみえても、誤差などを考えると実薬群とプラセボ群で本当に差があるかどうかは、これだけでは何とも言えません。
そこで臨床試験では、実薬群とプラセボ群に本当に差があるかどうかを統計学的に確かめる(評価する)ことが行われます。
その一つの手段として「検定」があります。
(代表的なものが「t検定」や「カイ2乗検定」といったものです。)
「検定」では2つの群で差があるかどうかの確立「P値」を算出します。
P値は0~1の範囲をとり、P=0の場合は差のある確率が100%、P=1場合は差のある確率が0%ということになります。
([1‐P]×100の%で差があることとなります)
例えばP=0.05であった場合、[1‐P]×100=0.95×100=95%となるので、実薬群とプラセボ群で差がある確率が95%となります。
P=0.01であった場合は、[1‐P]×100=0.99×100=99%の確立で実薬群とプラセボ群で差があることとなります。
P=0.001であった場合は、[1‐P]×100=0.999×100=99.9%の確立で実薬群とプラセボ群で差があることとなります。
そして、臨床試験では差がある確率が95%より大きい場合、Pの値で「P<0.05」の場合、「統計学的に差がある」と一般的にされており、「統計学的に有意な差が認められた」などと表現します。
一方で、差がある確率が95%以下の場合、Pの値で「P≧0.05」の場合、「統計学的に差がない」と一般的にされており、「統計学的に有意な差が認められなかった」などと表現します。
初めにお示しした左右のグラフについて仮に検定を行ったとし、左のグラフではP<0.05、右のグラフではP≧0.05であることが分かったとすると、左のグラフでは統計学的に有意な差が認められたのに対し、右のグラフでは統計学的に有意な差が認められなかった、ということになります。
有意差な差が認められないことを「NS(not significantの略)」と表現することがあり、グラフでは以下のように表現されることが多いです。
有意差のあるP<0.05ですが、グラフ内に星1つ「*」で表現することがあります。
星2つ「**」はP<0.01であることを示すことが多く、3つ「***」はP<0.001を示すことが多いです。
ただ、NSや「*」は略した表現のため、その定義はグラフ下などに記載されています。
「***:P<0.001、**:P<0.01、*:P<0.05、NS:有意差なし」のような記載です。
1点重要なことを補足します。
Pの値は実薬群とプラセボ群の差の大きさを示しているわけではないことを覚えておく必要があります。
P値がものすごく小さかったとしても、実薬群とプラセボ群の差がすごく大きいことを示しているわけではありません。
P値はあくまでも、差があるかないかの確立を示しているだけとなります。
P値がものすごく小さければ、ほぼほぼ100%差があるとは言えますが、実薬群とプラセボ群の差が大きいとは言えないのです。
いかがでしたでしょうか?
実薬群とプラセボ群に差が本当にあるかどうかは統計学的に確かめる必要があります。
その一つの手段として「検定」があり、それにより得られたP値により判定するということを今回説明しました。
次回は、もう一つの手段である「信頼区間」について説明します。
<Sponsered Link>