臨床試験/臨床統計

臨床試験 症例数の設定 [★★]

投稿日:2019年10月14日 更新日:

第Ⅲ相の検証試験では、臨床試験に参加する症例数がきちんと定められ、その上で主要評価項目が達成されるかどうかを検討されます。

それでは症例数はなぜ厳密に定める必要があるのでしょうか?
まず、症例数とP値の関係についてみていきます。

前置き:症例数とP値の関係
例えば実薬群とプラセボ群の有効性の検討において、投与4週後のスコアを比較するとします。
その際、検定によりP値を算出し、実薬群がプラセボ群に比べて有意であるかどうかが検討されますが、P値の性質として、症例数が多くなればなるほど、わずかな差を検出しやすくなるということがあります。

もう少し簡単に言うと、症例数が多くなればなるほど、P値が小さくなる傾向があります。
逆に、症例数が少ないと、差が検出しにくくなるため、P値が大きくなる傾向があります。
例を図に示してみました。

左と中央のグラフでは、実薬群のスコア、プラセボ群のスコアが同じとしており、実薬群とプラセボ群の差がわずかとします。
左のグラフでは症例数(n数)が10例と少なく、P>0.05であることから有意差が認められていません。
一方、中央のグラフでは症例数(n数)が100例であり、この場合にはP<0.05で有意差が認められています。

もう1つの例で、一番右のグラフは実薬群とプラセボ群の差が大きくみてとれますが、n数が5例と少ないため、P>0.05となり有意差が認められていません。

このように、差をきちんと検出するためには、症例数を十分に確保する必要があるのです。
逆に症例数が多ければ、P<0.05となりやすくなるのも事実です。

ここで勘違いするといけないのですが、症例数を無限に増やせば有意差が出てしまうように思えますが、実薬群とプラセボ群に効果の差が実際になければ差は検出されません。
一方、わずかな差が実際にあるとすれば、症例数を増やすことで、その差を検出することができるわけです。

ここまでよろしいでしょうか?
前置きが長くなりましたが、ここからが本番になります。

①臨床的に意味のある差を定める
先ほど、実薬群とプラセボ群で効果の差が実際にわずかでもあれば、症例数を多くすることでP<0.05となることを述べました。
しかし、実薬群で10の差が出ないと症状に対する差が認められないのに、1の差がある場合に有意な差が検出されるように症例数を決めても意味がありません。
10の差が出るのに十分な症例数を定めるわけです。

例えば1の差がある場合にP<0.05となる症例数が各群1000例、10の差がある場合にP<0.05となる症例数が各群50例であった場合、1000例ではなく50例に定めます。

ということで、例数を設定する際には、推定される差を定めておく必要があります。
ここで、どのくらいの差があればよいのかはどうやって分かるの?という質問が出るかと思いますが、それまでに行われた第Ⅱ相試験や海外で行われた試験の結果を基に定めることになります。

②データのバラつき(SDなど)も考慮
まず下の図をみてみましょう。

スコアが同じであっても、データのバラつき(SDの大きさ)によりP値に違いがでることは分かりますよね?
よって、例数を設定する際にはデータのバラつきがどの程度であるかも考慮されます。
こちらも①と同じで、それまでに行われた第Ⅱ相試験や海外で行われた試験の結果を基に定めることになります。

③有意水準(α)と検出力(1-β)
前回説明したα、βが症例数の設定に絡んできます。
(というか、前回説明したのは、今回の説明のためでもあります)

まず前回の復習で、図を再度掲載します。
(前回は検査の話からしましたが、今回は前回最後の差の表のみ掲載します)

実際には差がないのに差があると判定されてしまう確率が有意水準であるα(第1種の過誤)、逆に実際には差があるのに差がないと判定されてしまう確率がβ(第2種の過誤)でした。
そして、(1-β)を検出力といい、検出力は実際に差があるものを差があると判定できる力のことでした。

ちなみに、「P<0.05の場合に有意差があると判定する」と定義するとすれば、有意水準αの値を0.05に設定した、ということです。

このα、βを限りなく0に近づけるのが理想ですが、実はαを小さくするほどβが大きくなるという性質があります。

少し説明しますと、αを0に近づけるということは、実際には差がないのに「有意な差がある」と判定されてしまう確率を0に近づけるということです。
これを簡単に行うには、全て「差がない」と判定されるようにしてしまえばよく、たとえ差があっても全ての場合で「差がない」と判定させてしまえば、αは0になります。
すると、αの方はよいのですが、βの方に支障がでてきます。
全て「差がない」とすると、実際には差があるのに差があると判定する機能が働くなってしまい、検出力(1-β)が小さくなります(βが大きくなる)。
よって、αとβはバランスよく小さくする必要があります。

まずαの設定ですが、第Ⅲ相の検証試験では通常αは0.05に定めることになります。
そして、検出力(1-β)は比較的高い値に設定する必要があり、0.8(80%)以上が好ましいとされています。

そして症例数との関係については、α、βともに小さくすればするほど、それを満たすのに必要な症例数は多く必要です。
(基準を厳しくするほど、症例数が多く必要ということです)

以上まとめます。

~症例数の設定に考慮される値~
・差をどれくらいに設定するか?(これまでに行われた試験のデータを基に定める)
→差が大きいほど、P<0.05が得られる症例数は少なくてよくなる

・バラつき(SD)をどれくらい設定するか?(これまでに行われた試験のデータを基に定める)
→バラつきが小さいほど、P<0.05が得られる症例数は少なくてよくなる

・有意水準α(通常0.05に設定する)
→有意とするP値の基準で、小さいほど症例数が多く必要

・検出力1-β(0.8以上が望ましい)
→差があるものを差があると判定する力で、大きいほど症例数が多く必要

もう1つ、症例数を決めるのにあたり考慮されることがあります。
臨床試験では、途中で止めてしまう患者さんが出てきますので(脱落という)、この脱落する患者さんの数を想定して、少し症例数を上乗せしておく必要があります。
例えば、10%程度の患者さんが脱落することを見込み、その分を加えて試験に組み入れる症例数を決定します。

なお、症例数のことを「サンプルサイズ(sample size)」と言います。
また、有意水準αは英語論文で”level of significance”、検出力(1-β)は”power”と記載されます。

~英語論文の表記例~
A sample size of 200 patients (100 per group) was required to provide a statistical power of 90% at a two-sided level of significance of 5%, assuming a treatment difference of 1.0 and a standard deviation (SD) of 3.0, based on a previous study.

訳にすると
症例数(sample size)…200例(各群100例)を以下に基づき算出
・検出力(power)を90%とした → (1-β)を0.9に設定したということ
・有意水準(level of significance)を5%とした → αを0.05に設定したということ
※two-sidedは「両側」…検定には「両側」と「片側」がありますが、本ブログではまだ説明していませんので、機会があれば説明します。
・群間差(treatment difference)を1.0とした
・SDを3.0とした

“based on previous study”は、これまでに行われた試験結果を基に定めた、ということです。

以上いかがでしたでしょうか? 少し難しかったでしょうか?
次回は患者組み入れにおける「選択基準」、「除外基準」について説明します。

<Sponsered Link>



-臨床試験/臨床統計