本文へスキップ

推定から検定へ進む前に

推定から検定へ進む前に のヒーロー画像
このヒーロー画像はAIで生成しています。
  1. 1 情報幾何から検定へ進むための全体地図
  2. 2 情報幾何学は確率の地図を描く考え方
  3. 3 推定から検定へ進む前に
  4. 4 収束の違いを情報幾何で見る
  5. 5 尤度比検定を情報幾何の地図で見る
  6. 6 Wald・Score・尤度比検定を同じ地図で見る
  7. 7 信頼区間と検定は同じ不確実性を見ている
  8. 8 平均差検定と A/B テストを地図で見る
  9. 9 検出力とサンプルサイズを情報量で考える
  10. 10 多重検定と選択後推論の入口

前の記事では、確率分布を点として見る話をしました。

情報幾何学では、確率分布の集まりを多様体として見ます。点があり、座標があり、接ベクトルがあり、Fisher 計量というものさしがあります。

この見方は、検定を理解するときにも役に立ちます。

ただし、いきなり検定に入ると混乱しやすいです。

なぜなら、検定には「推定」とよく似ている部分と、まったく違う部分があるからです。

この記事では、検定そのものに入る前に、次の流れを整理します。

  1. 推定は、データに合う分布を選ぶこと。
  2. 検定は、ある仮説のもとでデータがどれくらい珍しいかを見ること。
  3. 統計量は、データを 1 つの数に要約したもの。
  4. p 値は、仮説が正しいとしたときの珍しさを表すもの。
  5. 検定は、真偽を直接決める魔法ではない。

ここを押さえると、次に収束、尤度比検定、Fisher 計量の話へ進みやすくなります。

推定は「どの分布が一番合うか」を探す

まず、推定から見ます。

コインを 10 回投げて、表が 8 回出たとします。

このとき、表が出る確率 pp はどれくらいだと考えるのが自然でしょうか。

本当の pp はわかりません。わかっているのは、実際に観測されたデータだけです。

だから推定では、データを見て「たぶんこのあたりの分布だろう」と選びます。

情報幾何学の言葉で言えば、推定は「確率分布の空間の中から、データに一番合う点を選ぶこと」です。

最尤推定は「データを一番自然に説明する分布」を選ぶ

推定の代表例が最尤推定です。

最尤推定は、観測されたデータが一番出やすくなるようなパラメータを選びます。

たとえば Bernoulli 分布では、pp を決めるとコイン投げの分布が決まります。

データが「表 8 回、裏 2 回」だったとき、p=0.8p=0.8 はかなり自然です。逆に p=0.1p=0.1 は不自然です。表が 8 回も出ることを説明しにくいからです。

この「データをどれくらい自然に説明できるか」を尤度と呼びます。

尤度を L(p)L(p) と書くと、最尤推定は次のように書けます。

p^=arg maxpL(p)\hat{p} = \argmax_p L(p)

読み方は、「尤度 L(p)L(p) が一番大きくなる pp を選ぶ」です。

実務では、尤度そのものより対数尤度を使うことが多いです。

(p)=logL(p)\ell(p) = \log L(p)

log を取ると、掛け算が足し算になり、計算しやすくなります。

検定は「その仮説のままでよいか」を疑う

推定は、データに合う点を選ぶ話でした。

検定は少し違います。

検定では、最初に仮説を置きます。

たとえば、

H0:p=0.5H_0: p = 0.5

という仮説を考えます。

H0H_0 は帰無仮説と呼ばれます。ここでは「このコインは普通のコインである」という仮説です。

そして、データを見ます。

もし 10 回投げて表が 5 回なら、p=0.5p=0.5 という仮説はかなり自然です。

でも、10 回投げて表が 10 回ならどうでしょうか。

「本当に普通のコインなのか」と疑いたくなります。

検定は、この疑い方を数学的に整理する方法です。

大事なのは、検定は「仮説が正しいかどうかを直接見る」方法ではないということです。

検定で見るのは、

「もし仮説 H0H_0 が正しいとしたら、今のようなデータはどれくらい珍しいか」

です。

帰無仮説と対立仮説

検定では、ふつう 2 つの仮説を置きます。

ひとつは帰無仮説 H0H_0 です。

もうひとつは対立仮説 H1H_1 です。

コインの例なら、次のように置けます。

H0:p=0.5H_0: p = 0.5 H1:p0.5H_1: p \ne 0.5

H0H_0 は「普通のコイン」です。

H1H_1 は「普通のコインではない」です。

片側だけを見たいなら、

H1:p>0.5H_1: p > 0.5

のように置くこともあります。これは「表が出やすいコインではないか」を調べる検定です。

検定では、まず H0H_0 を基準にします。

そして、H0H_0 のもとではかなり珍しいデータが出たら、H0H_0 を疑います。

この「疑う」という言葉が大事です。

検定は、H0H_0 が絶対に間違っていると証明するものではありません。H0H_0 を前提にするとデータが不自然に見える、という判断をするものです。

統計量は、データを 1 つの数に要約する

検定では、データそのものをそのまま全部見るのではなく、統計量を使います。

コインを 10 回投げたなら、表の回数

XX

が統計量になります。

表の割合

p^=X10\hat{p} = \frac{X}{10}

も統計量です。

平均、分散、相関係数、回帰係数、尤度比なども統計量です。

統計量を使う理由は、データの中で検定に必要な情報を要約したいからです。

たとえば「コインが普通かどうか」を見たいなら、表が何回出たかが重要です。1 回目に表が出たか、2 回目に裏が出たかという順番は、今回の検定ではそこまで重要ではありません。

このように、検定では問いに合わせて統計量を選びます。

標本分布は「統計量がどう揺れるか」を表す

ここから少し大事です。

統計量は、データから計算されます。

でも、データは毎回変わります。

同じ普通のコインを 10 回投げても、表が 5 回出ることもあれば、6 回出ることもあります。たまたま 8 回出ることもあります。

つまり、統計量も毎回変わります。

この「統計量がどう揺れるか」を表す分布を標本分布と呼びます。

検定では、帰無仮説 H0H_0 のもとで統計量がどう分布するかを考えます。

たとえば H0:p=0.5H_0: p=0.5 のもとで、10 回中の表の回数 XX は二項分布に従います。

XBinomial(10,0.5)X \sim \mathrm{Binomial}(10, 0.5)

この分布を使うと、「普通のコインなら、表が 8 回以上出ることはどれくらい珍しいか」を計算できます。

検定は、この標本分布を見て判断します。

普通のコインを 20 回投げたときの揺れ

帰無仮説 p = 0.5 のもとで、表の回数がどれくらい揺れるかを見ると、p 値の直感が作れます。

0 0.05 0.10 0.15 0.20 0 5.0 10 15 20 表の回数 x 確率
両側で珍しい領域 Binomial(n=20, p=0.5) 観測 x = 15

p 値は「仮説のもとでの珍しさ」

p 値は、検定でよく誤解される言葉です。

コインの例で、H0:p=0.5H_0: p=0.5 とします。

10 回中、表が 10 回出たとします。

普通のコインでも、表が 10 回連続で出ることはありえます。でも、かなり珍しいです。

この珍しさを数にしたものが p 値です。

ここで注意が必要です。

この違いを間違えると、検定の読み方がかなり危うくなります。

コイン検定を手で動かす

値を動かして、検定統計量・p 値・標準誤差・情報量の見え方を確認できます。

普通のコインと言えるか

有意水準は「どれくらい珍しければ疑うか」の線

検定では、有意水準 α\alpha を決めることがあります。

よく使われるのは、

α=0.05\alpha = 0.05

です。

これは、「帰無仮説が正しいのに、たまたま珍しいデータが出たせいで帰無仮説を疑ってしまう確率を、5% くらいまで許す」という基準です。

p 値が α\alpha より小さいとき、帰無仮説を棄却します。

p-value<αp\text{-value} < \alpha

このとき「統計的に有意」と言います。

ただし、有意だからといって、効果が大きいとは限りません。

データ数が非常に多いと、とても小さな差でも有意になることがあります。

逆に、有意でないからといって、効果が存在しないと証明されたわけでもありません。データが少なすぎて見えていないだけかもしれません。

第 1 種の誤りと第 2 種の誤り

検定には、2 種類の間違いがあります。

第 1 種の誤りは、帰無仮説が本当は正しいのに棄却してしまうことです。

普通のコインなのに、「このコインは普通ではない」と判断してしまうような失敗です。

第 2 種の誤りは、帰無仮説が本当は間違っているのに棄却できないことです。

本当は偏ったコインなのに、「普通のコインではないとは言えない」と判断してしまうような失敗です。

有意水準 α\alpha は、主に第 1 種の誤りを制御します。

一方、第 2 種の誤りを小さくするには、データ数、効果の大きさ、検定方法の設計が関係します。

ここも大事です。

検定は、間違いをゼロにする方法ではありません。

どの種類の間違いをどれくらい許すかを決めながら、データから判断する方法です。

推定と検定の違い

推定と検定の違いをまとめます。

見方推定検定
問いどの分布がデータに合うかこの仮説のままでよいか
出力推定値、信頼区間p 値、棄却するかどうか
基準尤度や損失帰無仮説のもとでの珍しさ
幾何学的な見方データに近い点を探す仮説の部分空間からデータがどれくらい離れているかを見る

推定は「一番よさそうな点を選ぶ」話です。

検定は「指定された点や部分空間から見て、データがどれくらい不自然か」を見る話です。

この違いを意識しておくと、次の収束や尤度比検定の話がかなり読みやすくなります。

検定を情報幾何で見る準備

情報幾何学の言葉に戻ります。

確率モデルは、確率分布の空間の中にある多様体です。

最尤推定は、その多様体の上でデータに一番合う点を選びます。

一方、帰無仮説は、その多様体の中のさらに小さな部分として見ることがあります。

たとえば、

H0:p=0.5H_0: p = 0.5

なら、Bernoulli 分布の空間の中の 1 点です。

もっと複雑なモデルでは、帰無仮説は 1 点ではなく、低次元の部分空間になります。

検定では、次の 2 つを比べます。

  1. 帰無仮説の範囲内で、データに一番合う分布。
  2. もっと自由な範囲で、データに一番合う分布。

この 2 つがほとんど同じなら、帰無仮説を疑う理由は弱いです。

大きく違うなら、帰無仮説だけではデータを説明しにくいかもしれません。

この比較を尤度で行う代表的な方法が、尤度比検定です。

そして、尤度比検定を局所的に見ると、Fisher 計量や χ2\chi^2 分布が出てきます。そのためには、「推定量が点として近づく」のか、「統計量の分布が近づく」のかを分けておく必要があります。

ここで、前の記事の内容が効いてきます。

  • 確率分布は点である。
  • モデルは分布の空間の中の多様体である。
  • Fisher 計量は分布の自然なものさしである。
  • 検定は、仮説が作る部分空間とデータに合う点を比べる。

次の記事では、この流れで収束の違いを整理します。

今日のまとめ

推定は、データに合う確率分布を選ぶことです。

検定は、帰無仮説が正しいとしたときに、今のデータがどれくらい珍しいかを見ることです。

統計量は、データを検定に必要な形へ要約したものです。

p 値は、帰無仮説のもとでの珍しさです。帰無仮説が正しい確率ではありません。

情報幾何学の言葉では、推定は確率分布の空間で点を選ぶ話です。検定は、仮説が作る点や部分空間から見て、データがどれくらい離れているかを見る話です。

この見方を持っておくと、尤度比検定、Fisher 計量、χ2\chi^2 近似が同じ地図の上に乗ってきます。

次に読む

この記事の前提や続きを確認したい場合は、関連する記事と用語集をあわせて読むと全体像を追いやすくなります。