臨床試験/臨床統計

臨床試験 統計学的有意性と臨床的重要性 [★★]

投稿日:2020年5月24日 更新日:

今回は「統計学的有意性と臨床的重要性」について説明します。
有効性の解釈に関する主な説明としては、今回で一区切りとなります。

論文などにおける臨床試験の結果は、対照群(プラセボ群など)やベースラインに比べて統計学的に差があるかどうか(p<0.05であるか?)、ということに焦点がおかれて記載されているかと思います。
しかし、統計学的に差があるかどうかと、臨床的に十分な治療効果が得られたどうかは、別の問題です。

薬が実際に世に出される際(国で承認される際)の評価においても、統計学的な検討に主眼が置かれており、臨床的に十分な治療効果が得られているかどうかについては重要視されていない状況かと思います。

以前の復習ですが、臨床試験の成否は主要評価項目の結果で決まることを述べました。
第Ⅲ相試験(検証試験)ではこれまでの試験データ(第Ⅱ相試験や海外試験)を基に、評価指標の群間差(例えば実薬群とプラセボ群のスコアの差)がどの程度かを検討され、有意差が認められるための症例数が厳密に定められます。
そして、その予測が正しいことが試験で検証されれば(有意差が示されれば)、試験は成功とされています。
つまり、試験の成否は統計学的な検討により決定されているということです。
(群間差を決める際、臨床的に有用となる差をきちんと定めている試験も中にはありますが)

また、p値は症例数が多くなればなるほど小さくなる傾向がありますので(これも前に説明しましたね)、実薬群とプラセボ群の差がわずかである場合には、症例数を極端に増やすことで、有意差を示すこともできてしまいます。
たまに、1000例を超える膨大な数の患者さんを組み入れて、有意差を示している試験もあります。
プラセボ群との差がわずかであっても、統計学的に差があることが認められれば臨床試験は成功と判断され、薬が世に出ることが許されてしまう(承認される)というわけです。

このような背景から、薬を実際に使用する際には、薬の治療効果がどの程度であるか、つまり「臨床的重要性」について押さえておく必要があるかと思います。
(統計学的有意性と臨床的重要性はきちんと分けて考えるべきです)

———————————————————————
「症例数の設定」や「p値と症例数の関係」については以下で説明しました。
臨床試験 症例数の設定 [★★]
———————————————————————

臨床的重要性に関連することで、以前書かせていただいた内容なのですが、有効性の結果が「ベースラインからの変化量」で述べられている場合は、実際のスコアがベースラインからどの程度まで変動したのかを確認すべき、という話をしました。
実測値が隠されて変化量のみで議論されている場合、統計学的な差は認められていたとしても、どの程度治療効果が認められているのかが曖昧ですので、ベースライン値と変化量から、実際のスコアがどの程度に改善したのかを、確認した方がよいかと思います。
(例えばスコアのレンジが100であるのに対し、変化量が1であるとすれば、例えプラセボ群に対する統計学的有意性が示されていたとしても、治療効果が十分かどうかはちょっと不明ですので)

———————————————————————
「ベースラインからの変化量」については、こちらの記事で説明しました。
臨床試験 差があるということ④ 補足(群内での経時変化、ベースラインからの変化量) [★★]
→こちらの後半の記事です

臨床試験 患者背景(ベースライン特性) [★★]
→こちらの「~患者背景で着目すること~①」の追加事項でも説明しています
———————————————————————

ただ、どの程度変化したら治療効果が十分かについては、指標がないと感覚的なものとなってしまいますので、臨床的重要性の指標としてMCIDが用いられています。
MCIDはMinimal Clinical Important Differenceの略で、「臨床的に意味のある最小の差」のことです。

例えば呼吸器の疾患であるCOPD(慢性閉塞性肺疾患)では、評価指標の一つにSGRQ(St. George Respiratory Questionnaire)がありますが、このスコアのMCIDは「4」であるとされています。

※先ほど括弧書きで、「(群間差を決める際、臨床的に有用となる差をきちんと定めている試験も中にはありますが)」と記載していましたが、MCIDを基に、統計学的有意差が臨床的有意差と一致するように組み立てられている試験もあります。

しかしながら、MCIDが明らかにされていない評価指標は多いのが現状であるかと思いますので、今後の課題なのかと思います。

また、MCIDについて論文で触れられていなくても、得られた結果の臨床的重要性については吟味されるべきで、論文のDiscussionで検討されているかどうかを確認した方がよいかと思います。
ただしDiscussionの内容は、実薬群に都合の良い方向で記載されることがありますので、そこで述べられていることに妥当性があるかどうか、読者が見極める必要があり、注意が必要です。
(臨床的重要性について全く触れていない論文もありますので、まずは統計学的有意性と臨床的重要性をきちんと分けて記載されているかを確認するとよいかと思います)

~MCID(Minimal Clinical Important Difference)の算出方法について~
MCIDはどのように決定されているのか?
と思われる方もいるかと思いますので、ちょっと調べてみました。
(気になる方のみ読んでみてください)

大きく2つの方法により算出されているようです。
1. アンカーに基づく方法(anchor-based method)
2. 分布に基づく方法(distribution-based method)

1. アンカーに基づく方法(anchor-based method
例えばある評価スコア(Aスコアとする)について、MCIDを算出したいとします。
100人患者さんがいるとして、100人のAスコアを取得しました。
一方で、どの程度改善したかについて、患者さんに回答してもらい、以下のように分類したとします。
①かなり改善、②ある程度改善、③少し改善、④変わらない、⑤少し悪化、⑥ある程度悪化、⑦かなり悪化

①~⑦に分類した際のAスコアの変化量の平均値をそれぞれ算出すると、以下のようになりました。
①かなり改善(7人)…Aスコアの変化量の平均値 28
②ある程度改善(20人)…Aスコアの変化量の平均値 19
③少し改善(20人)…Aスコアの変化量の平均値 8
④変わらない(35人)…Aスコアの変化量の平均値 0
⑤少し悪化(15人)…Aスコアの変化量の平均値 -4
⑥ある程度悪化(10人)…Aスコアの変化量の平均値 -12
⑦かなり悪化(3人)…Aスコアの変化量の平均値 -20
(人数は足すと100人になるように仮にしています)

ここで、改善の中で最も改善度合いが小さい「少し改善」に着目します。
(改善されたのは、「かなり改善」、「ある程度改善」、「少し改善」ですので、このうち改善が最も小さい「少し改善」に着目します。)
こちらを「臨床的に意味のある最小の改善」と考え、「少し改善」におけるAスコアの変化「8」をMCID(=臨床的に意味のある最小の差)と定めます。

2. 分布に基づく方法(distribution-based method
こちらの方法は測定値のバラつき(SDやSEM)を基に意味のある差を算出する方法です。
例えば、「1.96×√2×SEM」の値とする場合や、「0.5×SD」の値とする場合などがあります。
(場合により、SEMやSDの前の数値を変動させたりします)

(補足)
ここでのSEMは「測定の標準誤差(standard error of measurement)」です。標準誤差にはいくつか意味があり、その中の一つです。いつも出てくるSE(SEM)は「平均値の標準誤差(standard error of mean)」ですが、「測定の標準誤差」は定義が異なります。

1と2でどちらが好ましいかについては、測定値の分布のみを用いる2に比べて、患者さんの主観的な改善度合いを基に定めた1の「アンカーに基づく方法」の方が望ましいとされてはいます。
ただ、いずれにしても問題点はあるように思えます。

私の考えではありますが、MCIDの決定に用いた患者集団により、算出されたMCIDを用いることのできる患者集団も異なるかと思います。例えば、軽度や病状早期の患者さんを対象に算出されたMCIDと、重度や進行期の患者さんを対象に算出されたMCIDは異なるものかと思います。

また、ベースラインの値によっても、本来MCIDは変化するものであると思います。
(ベースライン値は疾患の重症度などをある程度反映するものなので、上記と意味的には同様ですが)
仮に0~100の範囲のスコアがあるとして(スコアは高い方が症状が悪いとする)、スコア90の方が80になったのと、20の方が10になったのでは、同じ10の変化であっても意味が全然異なるかと思います。
~MCID(Minimal Clinical Important Difference)の算出方法について ここまで~

文章のみの回となってしまいましたが、いかがでしたでしょうか?
臨床試験の結果の解釈については一区切りとなりますので、面倒でなければ頭から読み返していただくと、より整理できるのではないかと思います。
次回は臨床試験に安全性について、用語解説などしたいと思います。

<Sponsered Link>



-臨床試験/臨床統計