臨床試験/臨床統計

臨床試験の評価項目(主要評価項目、副次評価項目、事後解析) [★★]

投稿日:

臨床試験では評価する項目が事前に決められることになっています。
「事前に」というのは、臨床試験を開始する前ということです。
例えば花粉症の薬ですと、「投与12週後における鼻症状のスコア」であったり、「投与12週後における眼症状のスコア」であったりと、評価される項目(+時点)を具体的に決めているということです。

なぜかということを少し説明します。
例えば実薬とプラセボの効果を比較する試験を行ったとします。
仮に事前に10個の評価項目を設定し、この10個の項目については実薬を投与した群とプラセボを投与した群で差がでなかったとします。
(「差」というのは正確には「統計学的な差」のことなのですが、それについては次回説明します)

実薬とプラセボで差がでなかったということは、実薬の効果が認められなかったということですので、臨床試験を行った側としては、莫大な労力や資金をかけて行った臨床試験が無駄になってしまう、と思うはずです。
そこで臨床試験を行った側は、「患者さんの検査値などデータは膨大あるのだから、それを用いて実薬とプラセボで差が出ている項目を探して、実薬の効果が認められたデータを発表しよう」などと思うはずです。

臨床試験では試験後のデータを使おうと思えばいくらでも使えてしまうので、後から色んなデータを解析して、良い結果を出そうと思えば、いくらでも出せてしまうのです。
でもこれっておかしいですよね?
おかしいと思うことは、誰からみてもおかしいので、正当な判断がされるような決まりが作られています。

まず、臨床試験では「主要評価項目」と「副次評価項目」が定められます。
そして、臨床試験後に色んなデータを用いて解析したデータは「事後解析結果」として区別されています。(試験後にデータを解析することが行われていないわけではありません)

主要評価項目として定めることができるのは、基本的にはたった1つの項目だけです。
先に例で示しました、「投与12週後における鼻症状のスコア」を主要評価項目に設定した場合、「投与12週後における眼症状のスコア」を主要評価項目にすることはできませんし、評価時点が異なる「投与4週後における鼻症状のスコア」を主要評価項目にすることもできません。

一方で、副次評価項目はいくつでも定めることができます(事前にです)。
よって、以下のような設定であれば問題なく定められます。

主要評価項目:投与12週後における鼻症状のスコア
副次評価項目:投与4週後における鼻症状のスコア、投与12週後における眼症状のスコア、…

(なお、「主要評価項目として定めるのは、基本的には」と記載したのは、たまに「複合主要評価項目」といった複数の項目を設定される場合があるからです。)

主要評価項目の結果がその臨床試験における最大の結果であり、副次評価項目は何項目でも定められるため、あくまでも補足データという位置づけになります。
また、臨床試験後に新たに評価する項目を考えて解析される事後解析結果はおまけのおまけ、といった位置づけであります。

ただ、以前は薬を売るための製薬企業のプロモーション活動において、事後解析データが普通に使われ、パンフレットに掲載されていた時代がありました。
しかし、最近この扱いが厳しくなり、たとえ論文として発表されていたとしても、事後解析データをプロモーション活動に用いるのは基本的にはできないようにルールが定められるなど、厳しくなりました。

ここまでよろしいでしょうか?
続いて「主要評価項目」についてもう少し説明します。

臨床試験の最後の要である「第Ⅲ相試験」では「主要評価項目」について、例えば実薬群とプラセボ群で差が出ないと、その臨床試験は失敗したこととみなされてしまいます。
(きちんと差が出た場合、「主要評価項目が達成された」などと表現されます)

薬が国で承認されて販売される際には、臨床試験のデータを基に、その薬を世に出してよいかどうかが議論されます。たとえ第Ⅱ相試験で良い結果が得られていたとしても、第Ⅲ相試験の主要評価項目で差が出ない場合、つまり第Ⅲ相試験が失敗した場合には承認されない、ということにもなります。
よって臨床試験を行う側としては、何が何でも第Ⅲ相試験での主要評価項目が達成される必要があるのです。

このことから、第Ⅲ相試験の主要評価項目として定められるのは、それまでに行われた臨床試験(第Ⅰ相試験、第Ⅱ相試験や海外で行われた臨床試験など)で得られた結果を考慮すると、この項目であれば差がでるであろう、とされる項目となります。
そして、少しチャレンジングな項目(差が出るのが難しそうな項目)は副次評価項目として定めるわけです。

少し分かり難いので花粉症の薬で例をあげますと、第Ⅱ相試験の結果、鼻症状に対しては非常に優れていたのに対し、眼症状に対しての効果がいまいちだった場合、主要評価項目としては差が出そうな「鼻症状」を定めるわけです。そして、「眼症状」に対する効果については副次評価項目として定めておきます。
これでお分かりでしょうか?

話を戻します。
第Ⅲ相試験では、主要評価項目が達成されたとする条件も具体的に定められます。
(これについては、次回の話が分からないと難しいので、詳細はまた後の回で説明しますが、最も簡単な例では、「実薬群とプラセボ群で統計学的有意差が認められる」といったものです)

この条件も、それまでに行われた第Ⅱ相試験などの結果を基に定められ、さらに臨床試験に参加する患者さんの人数についても、主要評価項目が達成できるための人数が推定されて決定されます。
なぜいきなり人数の話がでてきたというかというと、基本的に人数が多くなれば多くなるほど、実薬群とプラセボ群の差が出やすくなる傾向があります。逆に人数が少なければ差が出にくくなる傾向があるので、差がでるための参加人数を推定して定める必要があるのです。

このように、事前にこの条件で試験を行えば主要評価項目が達成されるだろう、という推定が厳密に行われ、その推定を実証するのが第Ⅲ相試験ということになるため、主要評価項目の結果が最も重要(主要評価項目の結果が全てと言っても過言ではない)となります。

後半は少し難しかったでしょうか?
この辺の話は次回以降も出てきますので、読み続けていただくと、もう少ししっくりくるかと思います。

主要評価項目など、臨床試験の結果について解説していくにあたり、「統計学的有意性」というのを理解することが必須になってきますので、これについて次回説明したいと思います。

<Sponsered Link>



-臨床試験/臨床統計