臨床試験/臨床統計

新型コロナウイルス感染症(COVID-19)治療薬 レムデシビル 論文読解(第4回) [★★]

投稿日:

今回は、有効性の主要評価項目について、全体の結果とサブグループ解析の結果を説明していきます。解析方法についても併せて触れていきたいと思います。

第1回:論文取得、試験概要1(目的、試験デザイン、組み入れ基準(選択基準・除外基準)、投与方法)
第2回:試験概要2(評価項目、サブグループ解析)
第3回:試験概要3(症例数の設定、解析方法)、結果1(組み入れ患者、患者背景)
第4回:結果2(有効性:主要評価項目)
第5回:結果3(有効性:副次評価項目、安全性)
(第5回は予定です)

<RESULTS>(前回の続き)
■有効性
●主要評価項目:回復までの期間(28日時点)
有効性の主要評価項目は「回復までの期間」です。
該当図表はFigure 2とTable 2のRecoveryの箇所となります。
その中で真の主要評価項目は全体集団であるFigure 2A(Overall)とTable 2のOverallの箇所ですので、この結果で臨床試験の成功可否が決まります。
他はサブグループ解析ですので、全体集団の説明の後で紹介します。
(「真の」と記載したのは、全体集団の結果で臨床試験の成功可否が決まるということで、「サブグループ解析」の結果では臨床試験の成功可否は決まらないという意味です。サブグループ解析の結果はあくまでも参考です)

まず統計の話を少しします。
Figure 2のような曲線を「カプランマイヤー曲線」といいます。
カプランマイヤー曲線としてよくみるのが、横軸を時間とし、縦軸を生存率とした曲線であり、生存率の時間推移を表すものです(100%から下がっていくグラフで、Supplement AppendixのFigure S3のようなグラフをよくみかけます)。
今回は、縦軸が生存率ではなく回復した患者の割合としており、0%から上がっていくグラフですが、割合の時間推移をみているという点では同じです。

↓カプランマイヤー曲線について、簡単に説明しました。

~書籍紹介~
統計の説明の回(後日掲載予定)でも紹介しようと思いますが、↓の本が非常に分かりやすいです。
カプランマイヤー曲線や以下に記載したログランク検定について、分かりやすく説明されています。

わかってきたかも!?「医療統計」
五十嵐 中・佐條 麻里・高瀬 義昌 著

ここに後でAmazonリンクを貼らせていただく予定です。まだ登録していないので…(笑)

~書籍紹介 ここまで~

カプランマイヤー曲線について、2群間(2つの曲線)で差があるかどうかを検定する方法として、「log-rank test(ログランク検定)」があります。
METHODSのSTASTICAL ANALYSISに戻って初めの行をみてみましょう。
「The primary analysis was a stratified log-rank test of the time to recovery」とあります。
“stratified”は「層別」の意ですので、「層別ログランク検定」によりP値を算出しているということです。

「層別」については「層別無作為化」と同様に、結果をある因子で調整(補正)しています。
3~4行目に調整因子が記載されています。
「stratification by disease severity」とありますので、調整因子は「重症度」です。
ここでの重症度は8カテゴリーではなく、「軽度/中等度」「重度」で定義した方の重症度です。
重症度が結果に影響を及ぼしている可能性があるため、重症度による影響を取り除いているということです。(分かり難いので少し解説します)

~調整因子について少し解説~
調整因子については、これまできちんと説明していなかったので、簡単に説明します。
(統計の説明をまだしていないということもあり…)
今回はレムデシビルによる回復力(パワーというと分かりやすいでしょうか?)を検討したいのですが、軽度の患者さんに対する回復力と重度の患者さんに対する回復力は異なる可能性があります。

極端な例ですが、軽度の患者さん100人に対する回復力と、重度の患者さん100人に対する回復力を検討したところ、仮に軽度の患者さんはあっという間に回復し、一方重度の患者さんではなかなか回復しなかったとします。
このときレムデシビルの回復力は?というと、軽度の患者さんと重度の患者さんでの効果が異なるために、純粋に一つの物差しで回復力を定めることができません。
もう少し簡単にいうと、「重症度」というもう1つの因子が邪魔をして、患者さんの回復度合いを操作してしまっているからです。

そこで、邪魔をしている重症度の影響をなくしてしまえば、レムデシビルの回復力を定めることが出来そうです。

これが「調整」です。

「重症度」を調整因子(調整する因子)として定め、重症度による影響を差し引けば、純粋なレムデシビルの回復力を算出できるということです。
~調整因子について少し解説 ここまで~

統計の話が長くなったので、何の話か忘れてしまうかと思いますが、全体の結果に戻ります。
(主要評価項目「回復までの期間」の全体の結果をみていきます)

全体の結果:真の主要評価
Figure 2Aではレムデシビル群の方がプラセボ群よりも曲線が上にありますので、回復した患者割合がより高くなっています。
P<0.001とありますので、統計学的にも有意な差が認められています。

それでは次にTable 2のOverallをみてみます。
「Median time to recovery」は回復するまでの期間の中央値(Median)です。
レムデシビル群で11日、プラセボ群で15日となっています。

なお、カプランマイヤー曲線と中央値の関係ですが、50%の患者さん(100人の場合は50人)が回復したときの期間が中央値となります。

↓こちらは上から下がる例(生存率の例)ですが、今回のように下から上がる場合も同じです。

表の1つ下に行き、「Rate ratio」をみてみましょう。
回復についての比(プラセボ群に対するレムデシビル群の比)のことです。
両群で等しければ1です。
プラセボ群に比べてレムデシビル群の回復が多ければ、1より大きくなります。
結果は1.32(95%信頼区間:1.12~1.55)です。

95%信頼区間が示されていますが、信頼区間の全体(この場合は下限値の1.12)が1を上回っていますので、統計学的な有意差も認められているということになります。
(前回も記載しましたが、比の場合は1を基準に考えます。「臨床試験 差があるということ③ 補足(群間差、リスク比の場合) [★★] 」を参考)

95%信頼区間と併せて記載されているP値は層別ログランク検定のP値で、Figure 2Aに記載されているP<0.001と同じものです。

まとめますと、主要評価項目(真の)において、レムデシビル群ではプラセボ群に比べて有意な改善が認められ、臨床試験は成功したということになります。

補足ですが、症例数の設定において、想定される回復率の比を1.35と定めて症例数を定めていたことを覚えていますでしょうか?
前回の記事です。
新型コロナウイルス感染症(COVID-19)治療薬 レムデシビル 論文読解(第3回) [★★]
この1.35よりもやや小さい1.32の結果であった(効果が若干弱かった)ということも抑えておく必要があります。

他の薬の臨床試験の論文を読んでいても、症例数の設定において定めた差(プラセボ群との差)について、実際の値と比較するということが論文中であまり記載されない傾向にあるので、このことは覚えておくとよいかと思います。

サブグループ解析の結果
それでは次に、サブグループ解析結果の説明に移ります。
(「新型コロナウイルス感染症(COVID-19)治療薬 レムデシビル 論文読解(第2回) [★★]」で記載しましたが、サブグループ解析結果は、各サブグループでどのような傾向が得られているかどうかを確認するためのものですので、あくまでも参考という位置づけです)

Figure2B~2EとTable 2(Ordinal Score at Baseline)では、8カテゴリーの重症度別(4~7)のサブグループ解析結果が記載されています。

念のため8カテゴリーの定義を再度掲載しておきます。

<8カテゴリーで定義された臨床状態>
1. 退院、活動に制限なし
2. 退院、活動が制限される(在宅酸素吸入が必要な場合も含む)
3. 入院、酸素吸入を要しない、治療の継続は不要
4. 入院、酸素吸入を要しない、治療の継続は必要
5. 入院、酸素吸入を要する
6. 入院、非侵襲的人工呼吸器または高流量酸素による管理
7. 入院、侵襲的人工呼吸器またはECMOによる管理
8. 死亡
(青字の「1」~「3」を「回復」と定義しています)

Figure 2B~2E(グラフの次頁左上のFigure 2の説明に記載されています)
Figure 2B:カテゴリー4
Figure 2C:カテゴリー5
Figure 2D:カテゴリー6
Figure 2E:カテゴリー7

Table 2 Recovery
「Ordinal Score at Baseline」に「4」「5」「6」「7」とあるのがカテゴリーです。

それでは結果をみていきます。
まずはFigure2B~2Eから、見た目での大体の傾向を確認しましょう。

カテゴリー4(Figure 2B)、カテゴリー5(Figure 2C)ではレムデシビル群とプラセボ群である程度差がみられますが、カテゴリー6(Figure 2D)ではあまり差がみられず、カテゴリー7(Figure 2E)では全く差がみられないような感じです。
重症になるにつれ、効果があまり見込めなくなっていく感じです。

このことを踏まえて、Table 2で実際の数値を確認していきます。
Rate ratioの箇所をみてください。
統計学的な差があるかどうかは、95%信頼区間(下限値)が1を上回っているかで判断します。

カテゴリー4:1.38(0.94~2.03)…統計学的な差なし
カテゴリー5:1.47(1.17~1.84)…統計学的な差あり
カテゴリー6:1.20(0.79~1.81)…統計学的な差なし
カテゴリー7:0.95(0.64~1.42)…統計学的な差なし

統計学的な差があるのはカテゴリー5のみで、カテゴリー4では差が認められていません。
以外かと思うかもしれませんが、カテゴリー4の症例数が少ないこと着目しましょう。
先に記載した通り、全体集団(真の主要評価)についてのみ有意差が認められるような症例数を定めています。
サブグループに分けてしまうと、差を出すだけの症例数が確保できない状態となります。
特にカテゴリー4は症例数が少ないので、それもあって差が認められなかった可能性があります。
(繰り返しですが、サブグループ解析はあくまでも傾向をみるためのものとなります)

これはカテゴリー6、7についてもいえるのですが、Figure 2D、Figure 2EやRate ratioの値がカテゴリー6、カテゴリー7で下がっていっていますので、重症になるにつれ、効果が認められなくなる傾向はあるのかと思います。

Figure 3
ここでFigure 3をみてみます。
Figure 3はRecovery Rate Ratioがさまざまなサブグループで図式化されています。
カテゴリー4~7についても図式化されており、一番下(Baseline ordinal score)に掲載されています。
なお、サブグループに分けていない全体集団が一番上の「All patient」ですので、これが基準となります。

図の見方ですが、右に行くほどレムデシビル群の効果が高く、左にいくほどプラセボ群の効果が高い(=レムデシビル群の効果が低い)というこです。
バーは95%信頼区間ですので、1を跨いでいなければ(バーの左末端が1より右にあれば)レムデシビル群とプラセボ群で有意差があることになります。

先ほど記載した傾向と同じであるかと思います、。
カテゴリー4と5はプラセボ群に比べて回復する傾向、カテゴリー6は若干回復する傾向、カテゴリー7だとプラセボ群とほとんど同じですね。

Figure 3 他のサブグループ
Figure 3の他のサブグループもみてみましょう。
人種差(Raceの箇所)があるようで、Otherで一番優れた効果となっています。
(理由は分かりません)

年齢別(Age)では18~40歳で効果が優れており、若い方のほうが効果が見込める傾向ですね。
(本当は重症化しやすいとされる高齢の方に使う薬であってほしいのですが…)

性別(Sex)や症状(Symptom duration)のある期間ではほとんど差がないようです。

Figure S2、TableS2 「軽度/中等度」「重度」の重症度別サブグループ
Supplementary Appendixには「軽度/中等度」「重度」の重症度でのサブグループ解析結果も掲載されています。
まずFigure S2をみてみましょう。
上のAが「軽度/中等度」、Bが「重度」です。
8カテゴリー分類よりも大雑把な分け方なのか、Bの「重度」でもレムデシビル群とプラセボ群で差がある傾向です。
一方Aの「軽度/中等度」では群間の差があまり見られない傾向ですが、縦軸をよくみると、両群とも1.00に近づいているので、いずれの群もほとんどの患者さんが回復している傾向です。
(それなので、差が見られていないかと思います)

実際の数値をRate Ratioできちんとみてみましょう。
Table S2に記載されています。
(一番上の「Days to Recovery」の「Recovery Rate Ratio」)

統計学的な差については、こちらも95%信頼区間が1を跨いでいるかどうかで判断しましょう。
「軽度/中等度」:1.09(0.73~1.62)…統計学的な有意差なし
「重度」:1.37(1.15~1.63)…統計学的な有意差あり
Figure2Sのグラフ見た目通りの結果ですね。

ここまでが主要評価項目「回復までの期間」の話となります。

今回は、前半で解析の話(カプランマイヤー、検定、調整因子)からはじまり、後半サブグループ解析結果まで説明したこともあり、テーマは「主要評価項目結果」の説明だったのですが、かなりボリュームが大きくなりました。
次回は結果の続き、副次評価項目結果から説明していきます。

<Sponsered Link>



-臨床試験/臨床統計