Wald・Score・尤度比検定を同じ地図で見る

前の記事では、尤度比検定を「制限ありの最良点」と「制限なしの最良点」を比べる方法として見ました。

この記事では、その地図を少し広げます。

Wald 検定、Score 検定、尤度比検定を同じ場所に置いて比べます。

この 3 つは、統計学の教科書では別々の検定として出てきます。

でも大標本では、かなり近い答えを返します。

理由は、どれも真の点の近くで対数尤度を二次関数として近似し、Fisher 情報量をものさしとして使っているからです。

ただし、同じ地図を使っていても、見ている点が違います。

Wald 検定は、制限なしの最尤点から帰無仮説までの距離を見ます。

Score 検定、または Rao 検定は、帰無仮説の点でまだ坂道が残っているかを見ます。

尤度比検定は、制限ありと制限なしの対数尤度の差を見ます。

この違いを押さえると、3 つの検定が暗記ではなく、同じ図の中で見えるようになります。

局所二次近似の上で 3 つの検定を見る

真の点の近くでは対数尤度の山を二次関数で近似できるので、Wald・Score・尤度比は同じ地図に乗ります。

局所二次近似 5% の目安 Wald Score LR

まず同じ設定にそろえる

データを $X_1,\dots,X_n$ とします。

パラメータを $\theta$ とし、対数尤度を

\ell(\theta)

と書きます。

制限なしのモデル全体で対数尤度を最大にする点を

\hat{\theta}

とします。

これは通常の最尤推定量です。

一方、帰無仮説の範囲内で対数尤度を最大にする点を

\hat{\theta}_0

とします。

たとえば 2 つのパラメータ

\theta = (\theta_1,\theta_2)

があり、

H_0: \theta_2 = 0

を調べるなら、帰無仮説は「 $\theta_2=0$ の線」です。

$\hat{\theta}$ は平面全体で一番よい点です。

$\hat{\theta}_0$ は、その線の上で一番よい点です。

検定は、この 2 つの点と、その周辺の坂道を使って、帰無仮説がデータと合っているかを判断します。

同じ地図とは何か

情報幾何では、確率分布の集まりを空間として見ます。

パラメータ $\theta$ は、その空間に座標を付けるためのものです。

真の分布に対応する点の近くでは、対数尤度はなめらかな山のように見えます。

最尤点 $\hat{\theta}$ は、その山の頂上です。

頂上の近くでは、山の形を二次関数で近似できます。

1 次元なら放物線です。

多次元なら、お椀を逆さにしたような形です。

その曲がり方を表すのが Fisher 情報量です。

普通の平面なら、距離は三平方の定理で測れます。

でも確率分布の空間では、同じパラメータの差でも、分布の変化が大きい場所と小さい場所があります。

だから、パラメータの差をそのまま測るのではなく、Fisher 情報量で重みを付けて測ります。

大標本では、最尤推定量の揺れも、この Fisher 計量によって決まります。

そのため、3 つの検定はどれも Fisher 情報量を背後に持ちます。

接空間で見る

本当の確率分布の空間は曲がっています。

しかし、真の点のとても近くを見るなら、曲面を接平面で近似できます。

地球は丸いですが、足元だけを見ると平らに見えるのと同じです。

この「足元の平らな近似」が接空間です。

帰無仮説が部分空間なら、その帰無仮説にも接空間があります。

たとえば

H_0: \theta_2 = 0

なら、帰無仮説は $\theta_1$ 方向には動けます。

しかし $\theta_2$ 方向には動けません。

接空間で見ると、帰無仮説に沿った方向と、帰無仮説から外れる方向が分かれます。

検定で本当に見たいのは、帰無仮説から外れる方向の成分です。

ここまでの言葉で言うと、3 つの検定は次のように読めます。

Wald 検定は、最尤点から帰無仮説へ射影したときの残差を見ます。

Score 検定は、帰無仮説上の点で、帰無仮説から外れる方向にまだ登り坂があるかを見ます。

尤度比検定は、自由に登った頂上と、帰無仮説上で登った頂上の高さの差を見ます。

Wald 検定

Wald 検定は、制限なしの最尤点 $\hat{\theta}$ から出発します。

そして、その点が帰無仮説からどれくらい離れているかを測ります。

単純な例として、

H_0: \theta = \theta_0

を考えると、Wald 統計量は大まかに

(\hat{\theta}-\theta_0)^T I(\hat{\theta})(\hat{\theta}-\theta_0)

の形をしています。

ここで $I(\hat{\theta})$ は Fisher 情報量、またはその標本版です。

1 次元なら、

\frac{(\hat{\theta}-\theta_0)^2}{\operatorname{Var}(\hat{\theta})}

の形になります。

つまり、「推定値が帰無仮説の値から標準誤差何個分だけ離れているか」を二乗して見ています。

Wald 検定の直感はわかりやすいです。

推定した値が、仮説の値から大きく離れていたら、その仮説は怪しい。

これはとても自然です。

ただし注意点があります。

Wald 検定は、最尤点の座標を使って距離を測ります。

そのため、パラメータの取り方に敏感になりやすいです。

たとえば、 $\theta$ で見るか、 $\log \theta$ で見るかによって、小標本では結果が変わることがあります。

大標本ではこの違いは小さくなりますが、有限のデータでは無視できないことがあります。

Score 検定

Score 検定は、Wald 検定と反対側から見ます。

Wald 検定は、自由に動いた最尤点から帰無仮説を見ました。

Score 検定は、帰無仮説の側に立って、そこから外へ動きたくなる力が残っているかを見ます。

対数尤度の勾配をスコアと呼びます。

U(\theta) = \frac{\partial \ell(\theta)}{\partial \theta}

です。

最尤点では、ふつうこの勾配は 0 になります。

山の頂上では、どちらへ動いても最初の傾きがないからです。

しかし、帰無仮説上の最尤点 $\hat{\theta}_0$ では、帰無仮説に沿う方向の傾きは 0 でも、帰無仮説から外れる方向には傾きが残っているかもしれません。

Score 検定は、この「外へ出る方向の傾き」を測ります。

Score 検定のよいところは、制限なしの最尤推定量を計算しなくても使える場合があることです。

帰無仮説の下でだけ推定すれば、そこからの傾きを調べられるからです。

これは、対立仮説側のモデルが複雑なときに便利です。

一方で、帰無仮説の点の近くの情報だけで判断するため、遠く離れた対立仮説の形までは見ていません。

尤度比検定

尤度比検定は、前の記事で見たように、2 つの高さを比べます。

制限なしの最尤点での対数尤度は

\ell(\hat{\theta})

です。

帰無仮説の中での最尤点での対数尤度は

\ell(\hat{\theta}_0)

です。

尤度比検定の統計量は

2\{\ell(\hat{\theta})-\ell(\hat{\theta}_0)\}

です。

これは、自由に動けるモデルが、帰無仮説よりどれだけデータをよく説明できるかを表します。

尤度比検定の直感は、かなり安定しています。

帰無仮説の中でどれだけ頑張っても、自由なモデルに大きく負けるなら、帰無仮説は苦しい。

逆に、帰無仮説の中でもほとんど同じ高さまで登れるなら、帰無仮説を捨てる強い理由はありません。

3 つはなぜ大標本で近いのか

3 つの検定は、出発点が違います。

Wald 検定は、制限なしの最尤点を見ます。

Score 検定は、帰無仮説上の点を見ます。

尤度比検定は、2 つの点の高さの差を見ます。

それでも大標本では近くなります。

理由は、真の点の近くでは、対数尤度の形が二次関数に近づくからです。

二次関数の世界では、距離、傾き、高さの差がきれいにつながります。

たとえば 1 次元の放物線を考えてください。

頂上から少し離れると、高さは距離の二乗に比例して下がります。

また、その点での傾きは、頂上からの距離に比例します。

つまり、距離を見る方法、傾きを見る方法、高さの差を見る方法は、同じ情報を別の形で読んでいることになります。

ここで大切なのは、「完全に同じ検定になる」と言っているわけではないことです。

有限のデータでは値が違うことがあります。

特に、標本数が小さい場合、パラメータの境界に近い場合、モデルがなめらかでない場合には、差が目立つことがあります。

コインの例で比べる

コインを $n$ 回投げて、表の回数を $Y$ とします。

表の確率を $p$ とします。

帰無仮説を

H_0: p = 0.5

とします。

制限なしの最尤推定量は

\hat{p} = \frac{Y}{n}

です。

Wald 検定は、 $\hat{p}$ が $0.5$ からどれくらい離れているかを見ます。

たとえば $\hat{p}=0.8$ なら、帰無仮説の値から大きく離れています。

Score 検定は、 $p=0.5$ に立ったとき、表が多すぎる方向へ対数尤度がまだ上がりそうかを見ます。

表がかなり多ければ、 $p$ を 0.5 より大きくしたいという傾きが残ります。

尤度比検定は、 $p=0.5$ での対数尤度と、 $p=\hat{p}$ での対数尤度の差を見ます。

この例では帰無仮説が 1 点なので、図はかなり単純です。

より高次元のモデルでは、帰無仮説は線や面になります。

その場合、帰無仮説に沿う方向のズレは検定したいズレではありません。

検定したいのは、帰無仮説から外れる方向のズレです。

ここで接空間と Fisher 計量による射影が効いてきます。

どれを使うか

3 つが大標本で近いなら、どれを使ってもよいのでしょうか。

大まかにはそうですが、実務では違いがあります。

Wald 検定は、推定値と標準誤差があれば使いやすいです。

回帰モデルの出力に出てくる「推定値 ÷ 標準誤差」の検定は、多くの場合 Wald 型です。

ただし、パラメータ変換に弱いことがあります。

また、境界に近い推定値では不安定になることがあります。

Score 検定は、帰無仮説の下でだけ計算すればよい場合に便利です。

「新しい説明変数を入れるべきか」を、入れる前のモデルから調べるような場面で自然です。

ただし、帰無仮説の近くの傾きに基づくので、遠くの形は直接見ません。

尤度比検定は、制限ありと制限なしの両方のモデルをきちんと当てはめられるなら、解釈しやすいです。

説明力の差として読めるからです。

ただし、2 つの最適化を安定して解く必要があります。

モデルが複雑な場合は、数値計算の失敗が検定結果に混ざることがあります。

情報幾何でまとめる

最後に、同じ地図の上で 3 つを並べます。

まず、確率モデル全体があります。

その中に、帰無仮説で許された部分空間があります。

真の点の近くでは、この空間を接空間で近似します。

接空間には Fisher 計量が入り、距離と角度が決まります。

帰無仮説に沿う方向と、帰無仮説から外れる方向を Fisher 計量で分けます。

検定が見るのは、帰無仮説から外れる方向の成分です。

Wald 検定は、制限なしの最尤点から帰無仮説までの距離を見る。

Score 検定は、帰無仮説の点で外向きの傾きが残っているかを見る。

尤度比検定は、制限ありと制限なしの対数尤度差を見る。

この 3 つは、二次近似の世界では同じ幾何を別の側から見ているだけです。

だから大標本では近くなります。

でも有限標本では、どこから見るかの違いが結果に出ます。

検定は、単に p 値を出す機械ではありません。

どの点で、どの方向を、どのものさしで測っているのかを考えると、結果の意味がずっと読みやすくなります。

次の記事では、この見方を信頼区間へ広げ、検定と区間推定がどうつながるかを見ていきます。

Wald・Score・尤度比検定を同じ地図で見る

局所二次近似の上で 3 つの検定を見る

まず同じ設定にそろえる

同じ地図とは何か

接空間で見る

Wald 検定

Score 検定

尤度比検定

3 つはなぜ大標本で近いのか

コインの例で比べる

どれを使うか

情報幾何でまとめる

次に読む