検出力とサンプルサイズを情報量で考える

前の記事では、A/B テストと平均の検定を、実務でよく使う形に引き寄せて見ました。

そこでは「差があるか」を判断するために、平均差、標準誤差、検定統計量、p 値を使いました。

この記事では、その後に必ず出てくる問いを扱います。

「では、何人くらい集めれば、その差に気づけるのか」

これが検出力とサンプルサイズ設計の話です。

検定は、ただ p 値を出すだけの道具ではありません。実験を始める前に、どれくらいの差を見つけたいのか、そのためにどれくらいのデータが必要なのかを考えるための道具でもあります。

情報幾何の言葉で言えば、これは「2 つの分布が、データを集めたときにどれくらい離れて見えるか」を考える話です。

2 種類の誤りを復習する

検定では、まず帰無仮説 $H_0$ と対立仮説 $H_1$ を置きます。

たとえば A/B テストなら、

H_0: \text{A と B に差はない}

H_1: \text{A と B に差がある}

のように考えます。

しかし、データはいつも少し揺れます。偶然によって、差がないのに差があるように見えることもあります。逆に、本当は差があるのに、データが少なくて差が見えないこともあります。

そこで、検定には 2 種類の誤りがあります。

第 1 種の誤りは、よく「有意水準 5%」のように先に決めます。

これは、

\alpha = 0.05

と決めるということです。

一方、第 2 種の誤り $\beta$ は、データの数、効果の大きさ、ばらつきによって変わります。

つまり、 $\alpha$ は検定のルールとして先に置きやすいのに対して、 $\beta$ は「その実験でどれくらい見つけやすいか」に強く依存します。

検出力は、差に気づける確率

第 2 種の誤り $\beta$ は、「差があるのに見逃す確率」でした。

すると、その反対は「差があるときに、ちゃんと差があると判断できる確率」です。

これを検出力と呼びます。

たとえば検出力が 80% なら、「想定した効果が本当にあるとき、同じ実験を何度も行えば、およそ 80% の実験で有意差を見つけられる」という意味です。

ここで大事なのは、検出力は「効果が存在する確率」ではないということです。

検出力は、あくまで「ある大きさの効果が本当にあると仮定したとき、検定がそれを拾える確率」です。

効果量、ばらつき、サンプルサイズ

検出力を決める主な材料は、次の 3 つです。

効果量
ばらつき
サンプルサイズ

効果量は、見つけたい差の大きさです。

たとえば、平均購入額が 1000 円から 1010 円へ上がる差と、1000 円から 1200 円へ上がる差では、後者の方が見つけやすいです。

ばらつきは、データがどれくらい散らばるかです。

同じ 10 円の差でも、購入額がいつも 990 円から 1010 円くらいに収まるサービスなら見つけやすいです。一方、購入額が 100 円の人も 10000 円の人もいるサービスでは、10 円の差は見えにくくなります。

サンプルサイズは、観測する人数や回数です。

データが多いほど、偶然の揺れは平均化されます。そのため、小さな差でも見つけやすくなります。

標準誤差は 1 / sqrt(n) で小さくなる

平均を使う検定では、標準誤差が中心的な役割を持ちます。

標準誤差は、「標本平均がどれくらい揺れるか」を表します。

1 人 1 人のデータの標準偏差を $\sigma$ 、サンプルサイズを $n$ とすると、標本平均の標準誤差はおおよそ、

\frac{\sigma}{\sqrt{n}}

です。

ここで重要なのは、 $n$ が増えると標準誤差は $1/\sqrt{n}$ の速さで小さくなることです。

サンプルサイズを 4 倍にすると、標準誤差は半分になります。

サンプルサイズを 100 倍にすると、標準誤差は 10 分の 1 になります。

逆に言えば、標準誤差を半分にしたいなら、データは 2 倍では足りません。4 倍必要です。

検出力と n を手で動かす

値を動かして、検定統計量・p 値・標準誤差・情報量の見え方を確認できます。

検出力は H1 の分布が棄却域へ入る確率

H0 の棄却境界を決めたあと、本当に p1 にいるときにその外側へ出られる確率が検出力です。

棄却域 H0: p = 0.10 H1: p = 0.13 境界

この式は、サンプルサイズ設計の土台です。

効果量が標準誤差に比べて大きければ、差は見つけやすくなります。

効果量が標準誤差に比べて小さければ、差は見つけにくくなります。

検定統計量は、多くの場合、

\frac{\text{観測された差}}{\text{標準誤差}}

の形をしています。

つまり、差を大きくするか、ばらつきを小さくするか、サンプルサイズを増やして標準誤差を小さくするかによって、検出力は変わります。

情報幾何では、分布間の距離が sqrt(n) 倍で見える

ここから情報幾何の見方に移ります。

確率分布を点として見ると、帰無仮説の分布と対立仮説の分布は、分布の空間の中の 2 つの点、または 2 つの場所です。

1 回だけデータを見ると、この 2 つの分布は少ししか違わないかもしれません。

しかし、独立なデータを $n$ 個見ると、違いが積み重なります。

平均の世界で標準誤差が $1/\sqrt{n}$ で小さくなったのと同じように、情報幾何では、局所的な分布間の距離が $\sqrt{n}$ 倍で見える、と考えることができます。

Fisher 情報は、この「近くの分布をどれくらい区別しやすいか」を測る量です。

Fisher 情報が大きい方向では、パラメータを少し動かしただけでも分布がよく変わります。

つまり、データから違いを読み取りやすい方向です。

Fisher 情報が小さい方向では、パラメータを動かしても分布があまり変わりません。

この方向では、たくさんデータを集めても、違いを見つけるのに苦労します。

局所的には、パラメータを $\theta$ から $\theta + \Delta$ へ少し動かしたときの分布間の距離は、

\Delta^\top I(\theta)\Delta

のような形で測られます。

ここで $I(\theta)$ が Fisher 情報です。

独立なデータが $n$ 個あると、情報は足し合わさるので、おおよそ $nI(\theta)$ になります。

したがって距離の 2 乗は $n$ 倍になり、距離そのものは $\sqrt{n}$ 倍になります。

この見方をすると、「効果量」「ばらつき」「サンプルサイズ」が別々の話ではなくなります。

効果量は、分布の地図上での移動量です。

ばらつきは、その移動が見えにくくなる原因です。

Fisher 情報は、地図上の各方向の見えやすさを決めます。

サンプルサイズは、その見えやすさを積み上げます。

局所対立仮説と非心 χ² の直感

大標本の検定では、局所対立仮説という考え方がよく出てきます。

これは、サンプルサイズ $n$ が大きくなるとき、対立仮説も同時に帰無仮説へ近づけて考える方法です。

たとえば真のパラメータが、

\theta_n = \theta_0 + \frac{h}{\sqrt{n}}

のように動くと考えます。

これは「差が $1/\sqrt{n}$ の大きさで小さくなる」状況です。

なぜわざわざこんなことを考えるのでしょうか。

それは、検定にとってちょうど難しい境界を調べたいからです。

差が固定されたまま $n$ だけ大きくなるなら、十分大きなサンプルサイズではほとんど確実に見つかります。

一方、差が速く小さくなりすぎるなら、どれだけ頑張っても見えにくくなります。

$1/\sqrt{n}$ の差は、その中間にあるちょうどよい拡大鏡のスケールです。

尤度比検定などでは、帰無仮説のもとで検定統計量が $\chi^2$ 分布に近づくことがあります。

では、帰無仮説から少しだけずれた局所対立仮説のもとではどうなるでしょうか。

直感的には、 $\chi^2$ 分布の中心が少しずれたような形になります。

これを非心 $\chi^2$ 分布と呼びます。

「非心」とは、中心が 0 からずれているという意味です。

このずれの大きさは、効果量、Fisher 情報、サンプルサイズによって決まります。

言い換えると、帰無仮説から見たときに、対立仮説が情報幾何の距離でどれくらい離れて見えるかが、検出力を決めます。

ここで「ざっくり」と書いたのは、実際の式はモデル、制約、パラメータの次元によって変わるからです。

しかし直感としては、次の読み方で十分役に立ちます。

効果が大きいほど、非心度は大きくなります。

Fisher 情報が多いほど、非心度は大きくなります。

サンプルサイズが大きいほど、非心度は大きくなります。

非心度が大きいほど、検定統計量は棄却域に入りやすくなります。

つまり検出力が上がります。

サンプルサイズ設計は、見つけたい距離を先に決めること

実務でサンプルサイズを決めるときは、先に次のような値を決めます。

有意水準 $\alpha$
目標検出力 $1-\beta$
最小検出効果
ばらつきの見積もり

最小検出効果は、「これより小さい差なら、実務上は見つけられなくてもよい」と考える差です。

英語では minimum detectable effect、MDE と呼ばれます。

たとえば、購入率が 10.0% から 10.1% へ上がる差は、統計的には検出できるかもしれません。

しかし、そのために何百万人ものデータが必要で、売上への影響も小さいなら、実務上は追いかける価値が低いかもしれません。

逆に、10.0% から 11.0% へ上がる差なら、十分に意味があるかもしれません。

サンプルサイズ設計では、この「見つける価値のある最小の差」を先に決めます。

この考え方をすると、サンプルサイズ設計は機械的な計算ではなくなります。

「何人なら有意になるか」ではありません。

「どの差を見つける価値があり、その差をどれくらいの確率で見つけたいか」を決める作業です。

実務で気をつけること

検出力とサンプルサイズの話は、実務ではとても重要です。

なぜなら、実験を始めたあとに都合よく判断を変えると、誤り率の意味が崩れるからです。

p-hacking は、結果を見ながら分析方法を変え、有意になった結果だけを採用することです。

たとえば、いくつもの指標を試す、期間を何通りも変える、外れ値の扱いを何通りも試す、都合のよいセグメントだけを見る、といった行為が含まれます。

もちろん、探索的な分析そのものが悪いわけではありません。

問題は、探索して見つけた結果を、最初から決めていた検証結果のように扱うことです。

途中停止にも注意が必要です。

実験中に毎日 p 値を見て、有意になった瞬間に止めると、第 1 種の誤りが想定より大きくなります。

これは、何度もくじを引いて、当たりが出たところだけを報告するのに似ています。

途中で止めたいなら、逐次検定や group sequential design のように、途中確認を前提にした方法を使う必要があります。

また、検出力が低い実験にも注意が必要です。

検出力が低いと、本当に効果があっても見逃しやすくなります。

さらに、有意になった結果だけが目立つため、観測された効果量が実際より大きく見えやすくなります。

これは、小さな実験で「たまたま大きく出た結果」だけが残るからです。

情報量の言葉でまとめる

ここまでの話を、情報幾何の言葉でまとめます。

検定は、帰無仮説の分布と、対立仮説の分布を区別する作業です。

第 1 種の誤り $\alpha$ は、帰無仮説が正しいのに遠くへ外れたと判断する確率です。

第 2 種の誤り $\beta$ は、対立仮説が正しいのに、その距離を見つけられない確率です。

検出力 $1-\beta$ は、対立仮説の分布が本当にデータを生んでいるときに、その違いを検出できる確率です。

効果量は、分布の空間での移動量です。

ばらつきは、その移動を見えにくくします。

Fisher 情報は、その方向の違いがどれくらい鋭く見えるかを決めます。

サンプルサイズ $n$ は、情報を積み上げます。

その結果、局所的な距離は $\sqrt{n}$ 倍で見えるようになります。

だからサンプルサイズ設計は、単に「何人なら p < 0.05 になるか」を探す作業ではありません。

「どの分布の違いを、どのくらいの誤り率で、どのくらいの確率で見つけたいか」を先に決める作業です。

次の記事では、この考え方をさらに実務寄りに進め、たくさんの仮説を同時に見ると何が起きるのかを、多重検定と選択後推論へつなげて考えます。