感染症医のための非劣性試験の読み方(1/3)
今号は3週連続で配信します。
はじめに
従来のランダム化比較試験(randomized controlled trial;RCT)では、新規治療が標準治療またはプラセボよりも治療効果または予防効果が優れているかを検証する優越性試験が主流であった。近年では、優越性の検証ではなく、非劣性を検証するRCTが増えてきている[1]。これは、新規治療が基準になる治療よりも治療効果が劣らず、副作用や利便性、コストを減少させるかどうかを検証するデザインである。
特に、感染症領域では非劣性試験が多くなっている。やや古いデータではあるが、1990~2000年の同等性または非劣性試験の約1/4が感染症領域のものであった[2]。非劣性試験は優越性試験とは統計学的な性質が異なり、その解釈・実施・計画には注意を要する。感染症医にとって非劣性試験を適切に解釈できることは、今の時代の研究論文を読むうえで重要だと筆者は考えている。優越性試験に関する基礎知識がない人は、まずはそちらから勉強することをお勧めする。
優越性試験で「有意差はなし」は同等か?
一昔前までは、優越性試験で「統計学的有意差なし」という結果をもって、「差がないのだから同等だ」という解釈がなされていたが、これは適切ではない。なぜ適切ではないかを理解するには、優越性試験の帰無仮説を理解する必要がある。
A薬がB薬よりも優れていることを示したい場合(優越性試験)、「A薬とB薬の治療効果に差はない」という帰無仮説を設定する。帰無仮説とは否定するための仮説であり、「差がない」という帰無仮説を否定することによって「差がない」とは考えにくい、だから「差がある」という背理法的な考え方を行う。一般的には5%という有意水準を設定して、両者の差が偶然観察されるのは5%未満である場合に、それはまれなことなので、「差がない」と考えるより「差がある」と考えたほうが妥当だろうという判断を行う。
背理法というとなじみがないかもしれないが、実は日常生活でもこのような考え方を使っているケースはあるかもしれない。例えば、表1のような事例を考えてみる。これは「やましいことは何もない」という帰無仮説の下で、「花束を買ってくる」という非常にまれな事象が観察された→帰無仮説を否定→「何かやましいことがあるはずだ」と結論付けることになる。
表1 日常生活における背理法
結婚10年目のある日、夫が花束を買ってきた。 →妻は「結婚記念日でも誕生日でもないのに花束を買ってくる確率はP<0.001だ」と考えた。 →「何もやましいことがないのに花束を買ってくるのは変だ」 →「何かやましいことがあるはずだ」 |
では、妻の誕生日に夫が花束を買ってきた場合はどうだろうか。仮にP=0.3と設定する。誕生日なので、30%くらいの確率で「花束を買ってくる」という事象が観察されると考えると別に特別変なことではないが、かといって「やましいことは何もない」という帰無仮説を採択できるわけではないことが分かるだろう(ちなみに、わが家で妻の誕生日に夫が花束を買う確率はP=0.85くらいで全くまれではない)。
また、夫が妻の誕生日を忘れていた(P=0.7)というP値が大きい事象が観察されたからといって、「やましいことは何もない」という帰無仮説を採択することも全然できない。
仮説が正しいことを証明することは論理的に困難だが、仮説が誤っていることは証明しやすいため、仮説検定では背理法的な考え方が用いられる。
統計学的有意差を示せなかった場合に考えられるのは、「本当に差がない」か「サンプルサイズが小さい」ことである。わざとサンプルサイズを小さくして有意差を示せなかったからといって同等であるというのは間違いである。
表2では、死亡リスクは治療ありが8/20、治療なしが11/20であり、リスク比は0.73(95%信頼区間〔confidence interval;CI〕 0.37-1.42、P=0.53)になり、統計学的有意差はない。同じ割合でサンプルサイズを10倍にしてみると、死亡リスクは治療ありが80/200、治療なしが110/200で、リスク比は0.73(95% 信頼区間 0.59-0.90、P=0.004)と統計学的有意差を示す(表3)。このように、統計学的有意差はサンプルサイズの大小により影響されるので、P値だけで臨床的な意義を判断するのではなく、効果量も考慮する必要がある。
表2 サンプルサイズが小さい場合、有意差なし
|
治療あり |
治療なし |
死亡 |
8 |
11 |
生存 |
12 |
9 |
計 |
20 |
20 |
リスク比0.73(95% 信頼区間 0.37-1.42、P=0.53)→有意差なし |
表3 サンプルサイズを10倍にすると……
|
治療あり |
治療なし |
死亡 |
80 |
110 |
生存 |
120 |
90 |
計 |
200 |
200 |
リスク比0.73(95% 信頼区間 0.59-0.90、P=0.004)→有意差あり |
感染症領域の臨床試験でなぜ非劣性試験が多くなってきているのか?
感染症治療薬には既に標準治療薬があるものが多いため、プラセボを対照群にしたRCTを行うことは非倫理的である(例外として急性副鼻腔炎や急性気管支炎のような自然軽快傾向のある感染症では、プラセボ対照試験が行われることがある)。
また、実薬を対照群にした場合、ターゲットになる微生物に感受性があれば治療効果は大きく変わらないことは想像にかたくない。例えば、肺炎球菌肺炎に新治療薬を開発したとして、セフトリアキソンに対して優越性を示そうとした場合、差が付いたとしてもかなりわずかな差になるだろうと推測できる。わずかな差を検出するには、大きなサンプルサイズが必要になるため費用がかかる。莫大な費用をかけて開発し、さらに多額の費用をかけて臨床試験を行い、既存薬に有意差を示せなかった場合、製薬会社の金銭的損失は計り知れない。標準治療薬のある感染症に対して新薬を優越性試験で検証することは、かなりのバクチなのである。
そこで出てきたのが、同等性試験や非劣性試験である。同等性試験のほうが考え方として分かりやすいので、まずこちらから解説する。既存薬と新薬の治療効果が完全に同じであると証明するのはやはり困難であり、通常はある幅の中に両薬の治療効果の差が収まっていれば同等と考える。具体的にはΔ(デルタ)という幅を設定して、両薬の治療効果の差の信頼区間が-Δ~Δの間に入っていれば同等と考える。信頼区間をある幅に収めようとすると狭い信頼区間が必要になる。一般に信頼区間を狭くするには大きなサンプルサイズが必要であり、臨床試験の規模を大きくする必要がある。そこで非劣性試験という考え方が登場してきた。これは新薬が既存薬よりも「劣っていなければよし」とするものであり、同等性試験より信頼区間が広くてもよい。以上を図示すると図のようになる。
【References】
1)Suda KJ,Hurley AM,McKibbin T,et al.Publication of noninferiority clinical trials: changes over a 20-year interval.Pharmacotherapy.2011 Sep;31(9):833-9.
2)Lange S,Freitag G.Choice of delta:requirements and reality―results of a systematic review.Biom J.2005 Feb;47(1):12-27;discussion 99-107.
(つづく)