推定から検定へ進む前に

前の記事では、確率分布を点として見る話をしました。

情報幾何学では、確率分布の集まりを多様体として見ます。点があり、座標があり、接ベクトルがあり、Fisher 計量というものさしがあります。

この見方は、検定を理解するときにも役に立ちます。

ただし、いきなり検定に入ると混乱しやすいです。

なぜなら、検定には「推定」とよく似ている部分と、まったく違う部分があるからです。

この記事では、検定そのものに入る前に、次の流れを整理します。

推定は、データに合う分布を選ぶこと。
検定は、ある仮説のもとでデータがどれくらい珍しいかを見ること。
統計量は、データを 1 つの数に要約したもの。
p 値は、仮説が正しいとしたときの珍しさを表すもの。
検定は、真偽を直接決める魔法ではない。

ここを押さえると、次に収束、尤度比検定、Fisher 計量の話へ進みやすくなります。

推定は「どの分布が一番合うか」を探す

まず、推定から見ます。

コインを 10 回投げて、表が 8 回出たとします。

このとき、表が出る確率 $p$ はどれくらいだと考えるのが自然でしょうか。

本当の $p$ はわかりません。わかっているのは、実際に観測されたデータだけです。

だから推定では、データを見て「たぶんこのあたりの分布だろう」と選びます。

情報幾何学の言葉で言えば、推定は「確率分布の空間の中から、データに一番合う点を選ぶこと」です。

最尤推定は「データを一番自然に説明する分布」を選ぶ

推定の代表例が最尤推定です。

最尤推定は、観測されたデータが一番出やすくなるようなパラメータを選びます。

たとえば Bernoulli 分布では、 $p$ を決めるとコイン投げの分布が決まります。

データが「表 8 回、裏 2 回」だったとき、 $p=0.8$ はかなり自然です。逆に $p=0.1$ は不自然です。表が 8 回も出ることを説明しにくいからです。

この「データをどれくらい自然に説明できるか」を尤度と呼びます。

尤度を $L(p)$ と書くと、最尤推定は次のように書けます。

\hat{p} = \argmax_p L(p)

読み方は、「尤度 $L(p)$ が一番大きくなる $p$ を選ぶ」です。

実務では、尤度そのものより対数尤度を使うことが多いです。

\ell(p) = \log L(p)

log を取ると、掛け算が足し算になり、計算しやすくなります。

検定は「その仮説のままでよいか」を疑う

推定は、データに合う点を選ぶ話でした。

検定は少し違います。

検定では、最初に仮説を置きます。

たとえば、

H_0: p = 0.5

という仮説を考えます。

$H_0$ は帰無仮説と呼ばれます。ここでは「このコインは普通のコインである」という仮説です。

そして、データを見ます。

もし 10 回投げて表が 5 回なら、 $p=0.5$ という仮説はかなり自然です。

でも、10 回投げて表が 10 回ならどうでしょうか。

「本当に普通のコインなのか」と疑いたくなります。

検定は、この疑い方を数学的に整理する方法です。

大事なのは、検定は「仮説が正しいかどうかを直接見る」方法ではないということです。

検定で見るのは、

「もし仮説 $H_0$ が正しいとしたら、今のようなデータはどれくらい珍しいか」

です。

帰無仮説と対立仮説

検定では、ふつう 2 つの仮説を置きます。

ひとつは帰無仮説 $H_0$ です。

もうひとつは対立仮説 $H_1$ です。

コインの例なら、次のように置けます。

H_0: p = 0.5

H_1: p \ne 0.5

$H_0$ は「普通のコイン」です。

$H_1$ は「普通のコインではない」です。

片側だけを見たいなら、

H_1: p > 0.5

のように置くこともあります。これは「表が出やすいコインではないか」を調べる検定です。

検定では、まず $H_0$ を基準にします。

そして、 $H_0$ のもとではかなり珍しいデータが出たら、 $H_0$ を疑います。

この「疑う」という言葉が大事です。

検定は、 $H_0$ が絶対に間違っていると証明するものではありません。 $H_0$ を前提にするとデータが不自然に見える、という判断をするものです。

統計量は、データを 1 つの数に要約する

検定では、データそのものをそのまま全部見るのではなく、統計量を使います。

コインを 10 回投げたなら、表の回数

X

が統計量になります。

表の割合

\hat{p} = \frac{X}{10}

も統計量です。

平均、分散、相関係数、回帰係数、尤度比なども統計量です。

統計量を使う理由は、データの中で検定に必要な情報を要約したいからです。

たとえば「コインが普通かどうか」を見たいなら、表が何回出たかが重要です。1 回目に表が出たか、2 回目に裏が出たかという順番は、今回の検定ではそこまで重要ではありません。

このように、検定では問いに合わせて統計量を選びます。

標本分布は「統計量がどう揺れるか」を表す

ここから少し大事です。

統計量は、データから計算されます。

でも、データは毎回変わります。

同じ普通のコインを 10 回投げても、表が 5 回出ることもあれば、6 回出ることもあります。たまたま 8 回出ることもあります。

つまり、統計量も毎回変わります。

この「統計量がどう揺れるか」を表す分布を標本分布と呼びます。

検定では、帰無仮説 $H_0$ のもとで統計量がどう分布するかを考えます。

たとえば $H_0: p=0.5$ のもとで、10 回中の表の回数 $X$ は二項分布に従います。

X \sim \mathrm{Binomial}(10, 0.5)

この分布を使うと、「普通のコインなら、表が 8 回以上出ることはどれくらい珍しいか」を計算できます。

検定は、この標本分布を見て判断します。

普通のコインを 20 回投げたときの揺れ

帰無仮説 p = 0.5 のもとで、表の回数がどれくらい揺れるかを見ると、p 値の直感が作れます。

両側で珍しい領域 Binomial(n=20, p=0.5) 観測 x = 15

p 値は「仮説のもとでの珍しさ」

p 値は、検定でよく誤解される言葉です。

コインの例で、 $H_0: p=0.5$ とします。

10 回中、表が 10 回出たとします。

普通のコインでも、表が 10 回連続で出ることはありえます。でも、かなり珍しいです。

この珍しさを数にしたものが p 値です。

ここで注意が必要です。

この違いを間違えると、検定の読み方がかなり危うくなります。

コイン検定を手で動かす

値を動かして、検定統計量・p 値・標準誤差・情報量の見え方を確認できます。

有意水準は「どれくらい珍しければ疑うか」の線

検定では、有意水準 $\alpha$ を決めることがあります。

よく使われるのは、

\alpha = 0.05

です。

これは、「帰無仮説が正しいのに、たまたま珍しいデータが出たせいで帰無仮説を疑ってしまう確率を、5% くらいまで許す」という基準です。

p 値が $\alpha$ より小さいとき、帰無仮説を棄却します。

p\text{-value} < \alpha

このとき「統計的に有意」と言います。

ただし、有意だからといって、効果が大きいとは限りません。

データ数が非常に多いと、とても小さな差でも有意になることがあります。

逆に、有意でないからといって、効果が存在しないと証明されたわけでもありません。データが少なすぎて見えていないだけかもしれません。

第 1 種の誤りと第 2 種の誤り

検定には、2 種類の間違いがあります。

第 1 種の誤りは、帰無仮説が本当は正しいのに棄却してしまうことです。

普通のコインなのに、「このコインは普通ではない」と判断してしまうような失敗です。

第 2 種の誤りは、帰無仮説が本当は間違っているのに棄却できないことです。

本当は偏ったコインなのに、「普通のコインではないとは言えない」と判断してしまうような失敗です。

有意水準 $\alpha$ は、主に第 1 種の誤りを制御します。

一方、第 2 種の誤りを小さくするには、データ数、効果の大きさ、検定方法の設計が関係します。

ここも大事です。

検定は、間違いをゼロにする方法ではありません。

どの種類の間違いをどれくらい許すかを決めながら、データから判断する方法です。

推定と検定の違い

推定と検定の違いをまとめます。

見方	推定	検定
問い	どの分布がデータに合うか	この仮説のままでよいか
出力	推定値、信頼区間	p 値、棄却するかどうか
基準	尤度や損失	帰無仮説のもとでの珍しさ
幾何学的な見方	データに近い点を探す	仮説の部分空間からデータがどれくらい離れているかを見る

推定は「一番よさそうな点を選ぶ」話です。

検定は「指定された点や部分空間から見て、データがどれくらい不自然か」を見る話です。

この違いを意識しておくと、次の収束や尤度比検定の話がかなり読みやすくなります。

検定を情報幾何で見る準備

情報幾何学の言葉に戻ります。

確率モデルは、確率分布の空間の中にある多様体です。

最尤推定は、その多様体の上でデータに一番合う点を選びます。

一方、帰無仮説は、その多様体の中のさらに小さな部分として見ることがあります。

たとえば、

H_0: p = 0.5

なら、Bernoulli 分布の空間の中の 1 点です。

もっと複雑なモデルでは、帰無仮説は 1 点ではなく、低次元の部分空間になります。

検定では、次の 2 つを比べます。

帰無仮説の範囲内で、データに一番合う分布。
もっと自由な範囲で、データに一番合う分布。

この 2 つがほとんど同じなら、帰無仮説を疑う理由は弱いです。

大きく違うなら、帰無仮説だけではデータを説明しにくいかもしれません。

この比較を尤度で行う代表的な方法が、尤度比検定です。

そして、尤度比検定を局所的に見ると、Fisher 計量や $\chi^2$ 分布が出てきます。そのためには、「推定量が点として近づく」のか、「統計量の分布が近づく」のかを分けておく必要があります。

ここで、前の記事の内容が効いてきます。

確率分布は点である。
モデルは分布の空間の中の多様体である。
Fisher 計量は分布の自然なものさしである。
検定は、仮説が作る部分空間とデータに合う点を比べる。

次の記事では、この流れで収束の違いを整理します。

今日のまとめ

推定は、データに合う確率分布を選ぶことです。

検定は、帰無仮説が正しいとしたときに、今のデータがどれくらい珍しいかを見ることです。

統計量は、データを検定に必要な形へ要約したものです。

p 値は、帰無仮説のもとでの珍しさです。帰無仮説が正しい確率ではありません。

情報幾何学の言葉では、推定は確率分布の空間で点を選ぶ話です。検定は、仮説が作る点や部分空間から見て、データがどれくらい離れているかを見る話です。

この見方を持っておくと、尤度比検定、Fisher 計量、 $\chi^2$ 近似が同じ地図の上に乗ってきます。