臨床試験/臨床統計

臨床 プロペンシティスコアマッチング ~リアルワールドデータの群間比較~ [★★]

投稿日:

2023年最初の記事になりますが、本題である核酸医薬から外れて、臨床に関する記事を1つ書きました。
(核酸医薬の記事は、GW明けくらいに再開したいとは考えていますが、ちょっと未定です・・・)
バタバタの昨年末にプロペンシティスコアマッチングに関する論文を、本業でいくつか読む機会がありましたので、自分自身が忘れないようにということも含めて整理しました。
(統計についてあまり詳しくないので、間違いがあったら申し訳ございません)

プロペンシティスコアマッチングは、リアルワールド(実臨床)のデータに基づき2つの治療群を比較する際に有用な解析方法です。
臨床試験の無作為割付では、2つの治療群に群別する際、患者背景に差が出ないように均衡化されます。
(無作為化比較試験のエビデンスレベルは高く設定されていますが、それが主な理由です)
それに対し、リアルワールドのデータは治療群ごとの患者背景に通常偏りを生じています。

例えば、新規治療と既存治療があり、新規治療は既存治療に比べて治療効果が若干高いものの、副作用が若干でやすいとします。
この場合、重症度(症状の度合い)が高い患者ほど新規治療を受けることが多く、重症度が低い患者ほど既存治療を受けることが多くなるかと思います。
よって新規治療群と既存治療群では患者背景である重症度の分布が異なっていますので、この2つの治療群を横並びで比較するのは問題があります。
(なぜなら、重症度の違いによって治療効果は通常異なるからです)

重症度を例にとりましたが、患者背景の違いには、年齢、性別、合併症、既往歴など多数ありますので、何も考えずに各治療群を横並びに比較した結果は信頼性が低いと言えます。

この問題に対処できるのがプロペンシティスコアマッチングという方法です。
簡単に言うと、患者背景をスコア化してしまい、2つの治療群から患者背景スコアがほぼ同じ患者(ペア)を選出していくというのが、プロペンシティスコアマッチングです。
(ここでのスコアを「プロペンシティスコア(PS)」と言います。プロペンシティスコアは「傾向スコア」とも言います)
それにより、患者背景が類似した2つの治療群を作り出すことができます。

それでは、プロペンシティスコア(PS)について少し説明します。
2つの治療(治療Aと治療B)を比較するとして、プロペンシティスコア(PS)は治療Aを受ける確率(0~1)として定義します(1の場合は100%、0.5なら50%です)。
(すると、Bを受ける確率は「1-PS」となります)
例えば、治療Aを受ける確率(=PS)が0.8(80%)の場合、治療Bを受ける確率(1-PS)は「1-0.8=0.2(20%)」ということとなります。

少し噛み砕きますと、プロペンシティスコア(PS)はある患者さんが治療Aを選択するか、治療Bを選択するかの傾向(確率)を表すものとなります。
例えば先の例と同様に、治療Aは効果が高いけど副作用が多い治療、治療Bは効果が低いけど副作用が少ない治療である場合、症状の重い患者さんではAを選ぶ傾向が高いですので、PSは0.8(80%)とか高い確率になります。
患者背景によっては治療Aを選ぶ確率がもっと高くPS=0.9となることもあれば、治療Aと治療Bを選ぶ確率が同じになることもあります(この場合はPS=0.5)。

なお、治療を選択する要因というのはさまざまで、PSの値が高くても、治療Bを行っている患者さんもいます。
例として、治療Aに対してアレルギーを持っているとか、これまで治療Bを使っていたので同じ薬を使いたいとか、治療Aは高額なので使いたくないとか、さまざまな要因があります。

そういうのも踏まえて、治療Aを選ぶ確率であるPSが患者背景から決まってくるということで、「患者背景⇔治療Aを受ける確率(=PS)」と変換します。

ここで、治療群Aの患者は治療Aを受けた患者なのに、なぜPS=1(Aを受ける確率が100%)になっていないのか?という疑問を持たれる方がいるかもしれませんが、PSはその患者背景であった場合に、どちらの治療を受ける傾向があるか?を表した数値だからです。
具体的に言いますと、治療群AでPS=0.8(治療Aを受ける確率が80%)の患者さん場合、同じ患者背景の患者さんを100人集めてくると、80人が治療Aを受け、20人が治療Bを受ける、ということです。
(治療群A、治療群Bに関わらず、治療Aを受ける確率を患者背景から決めるわけです)

補足のためにちょっと前の話に戻ります。
このプロペンシティスコア(PS)の値に基づき、2つの治療群からペアを選出していくというのが、プロペンシティスコアマッチングです。
(プロペンシティスコアに基づきマッチングさせていきます)

少し細かい話になりますが、例えば上の図で、PSが全く同じでなく、治療Aと治療Bで値が少し異なるペアがありますよね。
ペアを作る際にPSの差をどこまで許容するのかということについても、各ケースできちんと定義を行います。
その許容される差を「キャリパー(caliper)」と言います。
(補足でした)

それでは次にプロペンシティスコア(PS)の算出について簡単に触れてみます。
(難しければ飛ばしてもらっても大丈夫です)
プロペンシティスコア(PS)は患者背景から算出しますので、年齢、性別、重症度、合併症、既往歴などの患者背景因子による数式が作られます。
式はロジスティック回帰というモデルを用いて以下のように立てられます。
log{PS/(1-PS)}=a+(b1×背景1)+(b2×背景2)+(b3×背景3)+…+(bn×背景n)

例えば患者背景として、年齢、性別、重症度(疾患のスコア)を考慮する場合、
log{PS/(1-PS)}=a+(b1×年齢)+(b2×性別)+(b3×疾患のスコア)
となります。
PSは「0~1」の値をとるので、log{PS/(1-PS)}は「―∞~+∞」の値をとるのですが、例えばlog{PS/(1-PS)}に対する年齢の寄与は「b1×年齢」なので、1歳あたりb1の値の分だけ寄与するということになります。
(b1、b2、b3は、各患者背景因子が、PSにどれくらい寄与するかを表す数値であり、解析によって算出されます)
性別は男性か女性かのどちらかになるので、男性なら1、女性なら0などと定められます。
年齢、性別、重症度を上記式に代入することでlog{PS/(1-PS)}が算出でき、PSも算出できます。
(ここまでがPSの算出の話です)

それでは具体例について紹介します。
論文のデータから、プロペンシティスコアマッチングを行う前と、行った後の患者背景の例です。
(英語の論文そのままで申し訳ございません。なお、こちらの論文はフリーで使用可能でしたので、そのまま掲載しております)

左側がリアルワールドの元々の患者背景で、Belimumab群が259例、ScC群が706例です。
プロペンシティスコアマッチングにより、両群からPSが近い患者をマッチさせて選出したのが右側です。
Belimumab群とSoC群の例数がそろっていますね。
群間の比を1:1でマッチングしたので、179例ずつとなっています。
(マッチングの比率はそのときに応じて異なります)
(なお、使用できる例数が減ってしまうのが、プロペンシティスコアマッチングのデメリットであります)

患者背景の差異を左右で見比べてみると、マッチング前の左に比べてマッチング後の右では差異が小さくなっていますね。
各患者背景の群間の偏りはBiasとして算出しており、マッチング後でBiasがかなり小さくなっているのが分かります。
このように、プロペンシティスコアマッチングを使うと、リアルワールドデータから、患者背景の類似した2群を作ることができるのです。

群間の偏りを表すBiasについて補足ですが、ここでは「標準化差(standardized distance)」 という値をBiasとしています。
標準化差は、両群の平均値の差をバラつき(両群の平均のバラつき)で割ったもので、<10%であれば両群のバランスがとれていると判断しています。

それでは最後にプロペンシティスコアマッチングの欠点ですが、上の論文の例のように、Belimumab群が259例、ScC群が706例であったのに対し、マッチング後では179例と少ない例数になってしまいました。
このように、例数が少なくなるのが大きな欠点であります。
例数が大きく減るのは、マッチングできない領域を生じるためであり、両群でPSの分布に偏りを生じていると、偏っている部分がマッチングされないのです。

この欠点を補った方法としてIPTW(Inverse Probability Treatment Weighting)法という方法があるのですが、かなり長くなってしまいましたので、次回紹介します(短いですが混乱しますので回を分けます)。

ということで、2023年はじめとなる今回は、プロペンシティスコアマッチングについて紹介しました。

<Sponsered Link>



-臨床試験/臨床統計