本文へスキップ

検定を幾何で理解する 1: 仮説は地図の中の場所

  1. 1 検定を幾何で理解する 1: 仮説は地図の中の場所
  2. 2 検定を幾何で理解する 2: Wald 検定は距離を見る
  3. 3 検定を幾何で理解する 3: Score 検定は坂を見る
  4. 4 検定を幾何で理解する 4: 尤度比検定は高さの差を見る

統計的検定は、最初はかなり不思議に見えます。

pp 値、有意水準、帰無仮説、対立仮説。言葉が多く、しかもどれも少し抽象的です。

この連載では、検定を幾何で見ます。

幾何で見るとは、確率分布を地図の上の点として考えるということです。

データは、その地図のどこに行けば自然に説明できるかを教えてくれます。検定は、その場所が「仮説の場所」からどれくらい離れているかを見る作業です。

コイン投げを地図にする

コインを nn 回投げて、表が xx 回出たとします。

表が出る確率を pp とすると、pp を 1 つ決めるだけでコイン投げの確率分布が決まります。

たとえば、

p=0.5p=0.5

なら普通のコインです。

p=0.8p=0.8

なら表が出やすいコインです。

つまり、pp の値は「確率分布の地図上の場所」です。

帰無仮説は地図の中の場所

普通のコインかどうかを調べたいとします。

このとき帰無仮説は、

H0:p=0.5H_0: p = 0.5

です。

幾何の言葉では、これは地図の中の 1 点です。

一方、対立仮説

H1:p0.5H_1: p \ne 0.5

は、p=0.5p=0.5 以外の場所も許すという意味です。

仮説は地図の中の場所

つまみを動かすと、データが指す位置が帰無仮説 H0 からどれくらい離れているかを見られます。

H0 data

データは最も合う場所を選ぶ

20 回投げて 16 回表が出たとします。

このデータにいちばん合う pp は、だいたい

p^=1620=0.8\hat{p} = \frac{16}{20} = 0.8

です。

これは最尤推定量です。名前は難しいですが、ここでは「データにいちばん合う場所」と読めば十分です。

帰無仮説の場所は p=0.5p=0.5 です。データが選んだ場所は p=0.8p=0.8 です。

検定は、このズレが偶然としてありえるかを調べます。

普通のコインを 20 回投げたときの揺れ

帰無仮説 p = 0.5 のもとで、表の回数がどれくらい揺れるかを見ると、p 値の直感が作れます。

0 0.05 0.10 0.15 0.20 0 5.0 10 15 20 表の回数 x 確率
両側で珍しい領域 Binomial(n=20, p=0.5) 観測 x = 15

珍しさは距離だけでは決まらない

ここで注意が必要です。

p=0.5p=0.5 から p=0.6p=0.6 までの差は 0.1 です。

p=0.9p=0.9 から p=1.0p=1.0 までの差も 0.1 です。

でも、確率分布としての変化は同じとは限りません。

確率の地図では、場所によってものさしが変わります。

このものさしが Fisher 情報量です。

Bernoulli 分布の Fisher 情報量

p が 0 や 1 に近い場所では、同じ p の移動でも分布の変化が大きく見えます。

0 5.5 11 17 22 0.05 0.27 0.50 0.72 0.95 p I(p)
I(p) = 1 / p(1-p) p = 0.5

今日のまとめ

検定を幾何で見ると、帰無仮説は地図の中の場所です。

データは、そのデータに合う場所を選びます。

検定は、データが選んだ場所と帰無仮説の場所のズレが、偶然の揺れとして自然かどうかを見る作業です。

次回は、この「ズレ」を距離として測る Wald 検定を見ます。

次に読む

この記事の前提や続きを確認したい場合は、関連する記事と用語集をあわせて読むと全体像を追いやすくなります。