尤度比検定を情報幾何の地図で見る

前の記事では、収束の違いを情報幾何学の言葉で整理しました。

推定は、データに合う分布を選ぶことです。

検定は、ある仮説のもとでデータがどれくらい珍しいかを見ることです。

そして大標本の検定では、推定量が真の点へ近づく話と、統計量の分布が $\chi^2$ 分布へ近づく話を分けて考える必要があります。

この記事では、その次の一歩として、尤度比検定を見ます。

尤度比検定は、検定の中でもかなり基本的で、しかも情報幾何学と相性がよい方法です。

なぜなら、尤度比検定は次のように読めるからです。

「帰無仮説の範囲で一番よい分布」と「より自由な範囲で一番よい分布」を比べる。

これは、確率分布の地図の上で、制限された場所と自由な場所を比べる話です。

まず 2 つのモデルを考える

尤度比検定では、2 つのモデルを比べます。

ひとつは、制限されたモデルです。

もうひとつは、より自由なモデルです。

コイン投げで考えます。

帰無仮説を、

H_0: p = 0.5

とします。

これは「普通のコインである」という仮説です。

一方、対立仮説を、

H_1: p \ne 0.5

とします。

これは「表が出る確率 $p$ は自由に動いてよい」という見方です。

このとき、 $H_0$ はとても制限されたモデルです。 $p=0.5$ の 1 点だけだからです。

$H_1$ はより自由なモデルです。 $p$ が 0 から 1 の間で動けます。

幾何学的には、部分空間と全体空間を比べている

情報幾何学の言葉で見ると、確率モデルは確率分布の空間の中の多様体です。

Bernoulli 分布全体は、 $p$ を動かしてできる 1 次元の多様体です。

その中で、

p=0.5

だけを許す帰無仮説は、1 点です。

もう少し複雑な例では、帰無仮説は 1 点ではなく、部分多様体になります。

たとえば、2 つのパラメータ $(\theta_1,\theta_2)$ を持つモデルで、

H_0: \theta_2 = 0

とすると、 $\theta_1$ は自由に動けますが、 $\theta_2$ は 0 に固定されます。

これは、2 次元のモデル空間の中の 1 次元の線のように見えます。

検定では、データに合う点が、この線の近くにあるのか、それとも線からかなり離れているのかを見ます。

尤度比は「制限あり」と「制限なし」の説明力を比べる

データを $x$ とします。

パラメータを $\theta$ とします。

尤度は、

L(\theta) = p(x|\theta)

です。

これは、「パラメータ $\theta$ のモデルが、観測されたデータ $x$ をどれくらい自然に説明できるか」を表します。

制限なしのモデルで、一番尤度が大きくなる点を

\hat{\theta}

とします。

これは通常の最尤推定量です。

一方、帰無仮説 $H_0$ の範囲内で、一番尤度が大きくなる点を

\hat{\theta}_0

とします。

これは「帰無仮説の中で、できるだけデータに合わせた点」です。

尤度比は、次のように考えます。

対数を取ると差として読める

実際の検定では、尤度比そのものより、対数を取った量を使います。

よく使う統計量は、

コインの例で見る

10 回中 8 回表が出たコイン

10 回中、表が 8 回出たとします。

制限なしなら、最尤推定は

\hat{p} = 0.8

です。

帰無仮説 $H_0: p=0.5$ の範囲では、選べる点は $p=0.5$ だけです。

つまり、

\hat{p}_0 = 0.5

です。

この 2 つの点を比べます。

もしデータが 10 回中 5 回表なら、 $\hat{p}=0.5$ なので、帰無仮説の点と制限なしの最尤点は同じです。尤度比検定の統計量は小さくなります。

でも、10 回中 8 回表なら、 $\hat{p}=0.8$ です。帰無仮説の $0.5$ から離れています。

データ数が少ない場合は偶然かもしれませんが、データ数が多くなるほど、このズレは無視しにくくなります。

尤度比を手で動かす

値を動かして、検定統計量・p 値・標準誤差・情報量の見え方を確認できます。

制限あり/なしで見る対数尤度の差

帰無仮説 p0 と最尤点 p_hat の高さの差を 2 倍したものが、尤度比検定の統計量になります。

尤度の山 log likelihood p0 = 0.5 p_hat = 0.7 MLE

なぜ Fisher 計量が出てくるのか

ここから情報幾何学に戻ります。

尤度比検定では、対数尤度の差を見ます。

最尤推定量 $\hat{\theta}$ の近くでは、対数尤度は山の頂上のような形になります。

頂上の近くを拡大すると、なめらかな山はだいたい二次関数で近似できます。

高校数学で言えば、放物線で近似するようなものです。

この二次近似の曲がり具合に、Fisher 情報行列が出てきます。

情報幾何学では、この Fisher 情報行列が Fisher 計量になります。

つまり、最尤点の近くでは、対数尤度の落ち方が Fisher 計量で測られる距離の 2 乗のように見えます。

かなりざっくり書くと、

2\{\ell(\hat{\theta}) - \ell(\theta)\} \approx (\theta-\hat{\theta})^\top I(\hat{\theta})(\theta-\hat{\theta})

です。

$I(\hat{\theta})$ が Fisher 情報行列です。

右辺は、Fisher 計量で見た距離の 2 乗のようなものです。

この式の意味は、こうです。

最尤点から少し離れると、対数尤度は下がります。その下がり方は、ただのユークリッド距離ではなく、Fisher 計量で測った距離に近い。

だから尤度比検定は、局所的には「Fisher 計量で測った、帰無仮説の部分空間からの距離」を見ていると読めます。

帰無仮説への射影として見る

幾何学では、ある点から部分空間へ一番近い点を下ろすことを射影と呼びます。

平面上の点から直線へ垂線を下ろすイメージです。

尤度比検定でも似たことが起きます。

制限なしの最尤点 $\hat{\theta}$ があります。

帰無仮説の範囲内での最尤点 $\hat{\theta}_0$ があります。

$\hat{\theta}_0$ は、帰無仮説の部分空間の中で、データに一番合う点です。

情報幾何学的には、 $\hat{\theta}$ から帰無仮説の部分空間へ下ろした射影のように見ることができます。

もちろん、ふつうの直線への垂線とは違います。

どの計量で近いと見るのか、どの divergence で射影するのかによって、見え方は変わります。

でも直感としては、

「自由に選んだ最尤点」と「帰無仮説内で一番近い点」のズレを見る

と考えるとわかりやすいです。

Wilks の定理は何を言っているのか

尤度比検定で重要なのが Wilks の定理です。

ざっくり言うと、データ数が十分大きく、条件がよいとき、尤度比検定の統計量

ただし、万能ではありません。

なぜ χ² 分布が出るのか

ここは直感だけで十分です。

χ² が出る直感

正規分布に従う量を 2 乗して足すと、 $\chi^2$ 分布が出ます。

たとえば、標準正規分布に従う $Z$ があるとき、

Z^2

は $\chi^2_1$ 分布に従います。

独立な標準正規変数を $k$ 個用意して、それぞれ 2 乗して足すと、

Z_1^2 + Z_2^2 + \cdots + Z_k^2

は $\chi^2_k$ 分布に従います。

最尤推定量は、データ数が大きいとき、真のパラメータの近くでだいたい正規分布のように揺れます。

そして、対数尤度の差は、最尤点からのズレの 2 乗のように近似できます。

だから、尤度比統計量は $\chi^2$ 分布に近づきます。

情報幾何学の言葉で言えば、最尤点の近くで確率分布の空間を拡大すると、Fisher 計量を持つほぼ平らな空間のように見えます。

その中で、帰無仮説の部分空間からのズレの 2 乗を測るので、 $\chi^2$ 分布が現れます。

KL divergence との関係

尤度比検定は、KL divergence ともつながります。

データ数が大きいとき、対数尤度の差は、経験分布とモデル分布のズレとして読めます。

かなり大ざっぱに言えば、最尤推定は KL を小さくする点を探しています。

制限なしのモデルでは、データにより近い点を選べます。

帰無仮説の中では、選べる点が制限されます。

そのため、帰無仮説の中での最良点は、制限なしの最良点よりもデータから遠くなることがあります。

尤度比検定は、この差を測っています。

つまり、

自由なモデルなら、データをどれくらいよく説明できるか。
帰無仮説に縛ると、説明力がどれくらい落ちるか。

を見ています。

この「説明力の落ち方」は、KL や Fisher 計量の言葉で幾何学的に眺められます。

検定の対応表

ここまでの話を対応表にします。

検定の言葉	幾何学的な見方
制限なしモデル	確率分布の多様体
帰無仮説	モデル多様体の中の点や部分多様体
最尤推定量 $\hat{\theta}$	データに一番合う点
帰無仮説内の最尤推定量 $\hat{\theta}_0$	帰無仮説の範囲でデータに一番合う点
尤度比	2 つの点の説明力の比
対数尤度差	2 つの点の説明力の差
尤度比統計量	帰無仮説からのズレを測る量
Fisher 計量	最尤点近くでの自然な距離のものさし
$\chi^2$ 近似	局所的に正規的な揺れの 2 乗和

この表を見ると、検定も確率分布の地図の上の話になっていることがわかります。

注意点

尤度比検定はとても便利ですが、注意点もあります。

使う前に確認したいこと

まず、 $\chi^2$ 近似は大標本近似です。データ数が少ないときは、近似が荒いことがあります。

次に、パラメータが境界にある場合は、通常の Wilks の定理がそのまま使えないことがあります。

たとえば、分散が 0 以上でなければならない、混合モデルの重みが 0 以上でなければならない、といった制約がある場合です。

また、モデルをデータで選んだあとに、同じデータで検定すると、通常の p 値がそのままでは正しくないことがあります。

これは Selective Inference の重要な入口です。

「データを見てから仮説を選んだ」のに、「最初からその仮説を決めていた」かのように検定すると、珍しさの基準がずれてしまいます。

この問題を扱うために、選択後推論という考え方が出てきます。

次に検定で見たいこと

この先で検定を学ぶなら、次の順番がよいです。

まず、1 標本の平均の検定を見ます。

これは「平均が 0 と言えるか」「平均がある値と違うか」を見る基本的な検定です。

次に、2 群の平均差の検定を見ます。

これは A/B テストや実験の比較につながります。

その次に、尤度比検定をもう少し実例で追います。

ロジスティック回帰や Poisson 回帰で、「ある説明変数を入れる意味があるか」を見ると、尤度比検定のありがたさが見えやすくなります。

最後に、選択後推論へ進みます。

モデル選択、特徴量選択、良さそうに見えた比較だけを取り出すことが、検定にどんな影響を与えるのかを見る流れです。

今日のまとめ

尤度比検定は、制限なしのモデルと、帰無仮説で制限されたモデルの説明力を比べる検定です。

制限なしの最尤点 $\hat{\theta}$ と、帰無仮説内の最尤点 $\hat{\theta}_0$ を比べます。

対数尤度差を 2 倍した量

2\{\ell(\hat{\theta}) - \ell(\hat{\theta}_0)\}

が大きいほど、帰無仮説だけではデータを説明しにくいと考えます。

情報幾何学の言葉では、尤度比検定は「帰無仮説の部分空間」と「データに合う点」のズレを、Fisher 計量や KL の近くで眺める話です。

この見方を持つと、検定はただの手続きではなく、確率分布の地図の上で仮説を比べる方法として理解できます。

次は、Wald・Score・尤度比検定を同じ地図の上で比較します。

尤度比検定を情報幾何の地図で見る

まず 2 つのモデルを考える

幾何学的には、部分空間と全体空間を比べている

尤度比は「制限あり」と「制限なし」の説明力を比べる

対数を取ると差として読める

コインの例で見る

尤度比を手で動かす

制限あり/なしで見る対数尤度の差

なぜ Fisher 計量が出てくるのか

帰無仮説への射影として見る

Wilks の定理は何を言っているのか

なぜ χ² 分布が出るのか

KL divergence との関係

検定の対応表

注意点

次に検定で見たいこと

今日のまとめ

次に読む