本文へスキップ

尤度比検定を情報幾何の地図で見る

尤度比検定を情報幾何の地図で見る のヒーロー画像
このヒーロー画像はAIで生成しています。
  1. 1 情報幾何から検定へ進むための全体地図
  2. 2 情報幾何学は確率の地図を描く考え方
  3. 3 推定から検定へ進む前に
  4. 4 収束の違いを情報幾何で見る
  5. 5 尤度比検定を情報幾何の地図で見る
  6. 6 Wald・Score・尤度比検定を同じ地図で見る
  7. 7 信頼区間と検定は同じ不確実性を見ている
  8. 8 平均差検定と A/B テストを地図で見る
  9. 9 検出力とサンプルサイズを情報量で考える
  10. 10 多重検定と選択後推論の入口

前の記事では、収束の違いを情報幾何学の言葉で整理しました。

推定は、データに合う分布を選ぶことです。

検定は、ある仮説のもとでデータがどれくらい珍しいかを見ることです。

そして大標本の検定では、推定量が真の点へ近づく話と、統計量の分布が χ2\chi^2 分布へ近づく話を分けて考える必要があります。

この記事では、その次の一歩として、尤度比検定を見ます。

尤度比検定は、検定の中でもかなり基本的で、しかも情報幾何学と相性がよい方法です。

なぜなら、尤度比検定は次のように読めるからです。

「帰無仮説の範囲で一番よい分布」と「より自由な範囲で一番よい分布」を比べる。

これは、確率分布の地図の上で、制限された場所と自由な場所を比べる話です。

まず 2 つのモデルを考える

尤度比検定では、2 つのモデルを比べます。

ひとつは、制限されたモデルです。

もうひとつは、より自由なモデルです。

コイン投げで考えます。

帰無仮説を、

H0:p=0.5H_0: p = 0.5

とします。

これは「普通のコインである」という仮説です。

一方、対立仮説を、

H1:p0.5H_1: p \ne 0.5

とします。

これは「表が出る確率 pp は自由に動いてよい」という見方です。

このとき、H0H_0 はとても制限されたモデルです。p=0.5p=0.5 の 1 点だけだからです。

H1H_1 はより自由なモデルです。pp が 0 から 1 の間で動けます。

幾何学的には、部分空間と全体空間を比べている

情報幾何学の言葉で見ると、確率モデルは確率分布の空間の中の多様体です。

Bernoulli 分布全体は、pp を動かしてできる 1 次元の多様体です。

その中で、

p=0.5p=0.5

だけを許す帰無仮説は、1 点です。

もう少し複雑な例では、帰無仮説は 1 点ではなく、部分多様体になります。

たとえば、2 つのパラメータ (θ1,θ2)(\theta_1,\theta_2) を持つモデルで、

H0:θ2=0H_0: \theta_2 = 0

とすると、θ1\theta_1 は自由に動けますが、θ2\theta_2 は 0 に固定されます。

これは、2 次元のモデル空間の中の 1 次元の線のように見えます。

検定では、データに合う点が、この線の近くにあるのか、それとも線からかなり離れているのかを見ます。

尤度比は「制限あり」と「制限なし」の説明力を比べる

データを xx とします。

パラメータを θ\theta とします。

尤度は、

L(θ)=p(xθ)L(\theta) = p(x|\theta)

です。

これは、「パラメータ θ\theta のモデルが、観測されたデータ xx をどれくらい自然に説明できるか」を表します。

制限なしのモデルで、一番尤度が大きくなる点を

θ^\hat{\theta}

とします。

これは通常の最尤推定量です。

一方、帰無仮説 H0H_0 の範囲内で、一番尤度が大きくなる点を

θ^0\hat{\theta}_0

とします。

これは「帰無仮説の中で、できるだけデータに合わせた点」です。

尤度比は、次のように考えます。

対数を取ると差として読める

実際の検定では、尤度比そのものより、対数を取った量を使います。

よく使う統計量は、

コインの例で見る

尤度比を手で動かす

値を動かして、検定統計量・p 値・標準誤差・情報量の見え方を確認できます。

尤度比で制限あり/なしを比べる

制限あり/なしで見る対数尤度の差

帰無仮説 p0 と最尤点 p_hat の高さの差を 2 倍したものが、尤度比検定の統計量になります。

-16 -12 -8.0 -4.0 0 0.05 0.27 0.50 0.72 0.95 p log L(p) - log L(p_hat)
尤度の山 log likelihood p0 = 0.5 p_hat = 0.7 MLE

なぜ Fisher 計量が出てくるのか

ここから情報幾何学に戻ります。

尤度比検定では、対数尤度の差を見ます。

最尤推定量 θ^\hat{\theta} の近くでは、対数尤度は山の頂上のような形になります。

頂上の近くを拡大すると、なめらかな山はだいたい二次関数で近似できます。

高校数学で言えば、放物線で近似するようなものです。

この二次近似の曲がり具合に、Fisher 情報行列が出てきます。

情報幾何学では、この Fisher 情報行列が Fisher 計量になります。

つまり、最尤点の近くでは、対数尤度の落ち方が Fisher 計量で測られる距離の 2 乗のように見えます。

かなりざっくり書くと、

2{(θ^)(θ)}(θθ^)I(θ^)(θθ^)2\{\ell(\hat{\theta}) - \ell(\theta)\} \approx (\theta-\hat{\theta})^\top I(\hat{\theta})(\theta-\hat{\theta})

です。

I(θ^)I(\hat{\theta}) が Fisher 情報行列です。

右辺は、Fisher 計量で見た距離の 2 乗のようなものです。

この式の意味は、こうです。

最尤点から少し離れると、対数尤度は下がります。その下がり方は、ただのユークリッド距離ではなく、Fisher 計量で測った距離に近い。

だから尤度比検定は、局所的には「Fisher 計量で測った、帰無仮説の部分空間からの距離」を見ていると読めます。

帰無仮説への射影として見る

幾何学では、ある点から部分空間へ一番近い点を下ろすことを射影と呼びます。

平面上の点から直線へ垂線を下ろすイメージです。

尤度比検定でも似たことが起きます。

制限なしの最尤点 θ^\hat{\theta} があります。

帰無仮説の範囲内での最尤点 θ^0\hat{\theta}_0 があります。

θ^0\hat{\theta}_0 は、帰無仮説の部分空間の中で、データに一番合う点です。

情報幾何学的には、θ^\hat{\theta} から帰無仮説の部分空間へ下ろした射影のように見ることができます。

もちろん、ふつうの直線への垂線とは違います。

どの計量で近いと見るのか、どの divergence で射影するのかによって、見え方は変わります。

でも直感としては、

「自由に選んだ最尤点」と「帰無仮説内で一番近い点」のズレを見る

と考えるとわかりやすいです。

Wilks の定理は何を言っているのか

尤度比検定で重要なのが Wilks の定理です。

ざっくり言うと、データ数が十分大きく、条件がよいとき、尤度比検定の統計量

ただし、万能ではありません。

なぜ χ² 分布が出るのか

ここは直感だけで十分です。

KL divergence との関係

尤度比検定は、KL divergence ともつながります。

データ数が大きいとき、対数尤度の差は、経験分布とモデル分布のズレとして読めます。

かなり大ざっぱに言えば、最尤推定は KL を小さくする点を探しています。

制限なしのモデルでは、データにより近い点を選べます。

帰無仮説の中では、選べる点が制限されます。

そのため、帰無仮説の中での最良点は、制限なしの最良点よりもデータから遠くなることがあります。

尤度比検定は、この差を測っています。

つまり、

  • 自由なモデルなら、データをどれくらいよく説明できるか。
  • 帰無仮説に縛ると、説明力がどれくらい落ちるか。

を見ています。

この「説明力の落ち方」は、KL や Fisher 計量の言葉で幾何学的に眺められます。

検定の対応表

ここまでの話を対応表にします。

検定の言葉幾何学的な見方
制限なしモデル確率分布の多様体
帰無仮説モデル多様体の中の点や部分多様体
最尤推定量 θ^\hat{\theta}データに一番合う点
帰無仮説内の最尤推定量 θ^0\hat{\theta}_0帰無仮説の範囲でデータに一番合う点
尤度比2 つの点の説明力の比
対数尤度差2 つの点の説明力の差
尤度比統計量帰無仮説からのズレを測る量
Fisher 計量最尤点近くでの自然な距離のものさし
χ2\chi^2 近似局所的に正規的な揺れの 2 乗和

この表を見ると、検定も確率分布の地図の上の話になっていることがわかります。

注意点

尤度比検定はとても便利ですが、注意点もあります。

次に検定で見たいこと

この先で検定を学ぶなら、次の順番がよいです。

まず、1 標本の平均の検定を見ます。

これは「平均が 0 と言えるか」「平均がある値と違うか」を見る基本的な検定です。

次に、2 群の平均差の検定を見ます。

これは A/B テストや実験の比較につながります。

その次に、尤度比検定をもう少し実例で追います。

ロジスティック回帰や Poisson 回帰で、「ある説明変数を入れる意味があるか」を見ると、尤度比検定のありがたさが見えやすくなります。

最後に、選択後推論へ進みます。

モデル選択、特徴量選択、良さそうに見えた比較だけを取り出すことが、検定にどんな影響を与えるのかを見る流れです。

今日のまとめ

尤度比検定は、制限なしのモデルと、帰無仮説で制限されたモデルの説明力を比べる検定です。

制限なしの最尤点 θ^\hat{\theta} と、帰無仮説内の最尤点 θ^0\hat{\theta}_0 を比べます。

対数尤度差を 2 倍した量

2{(θ^)(θ^0)}2\{\ell(\hat{\theta}) - \ell(\hat{\theta}_0)\}

が大きいほど、帰無仮説だけではデータを説明しにくいと考えます。

情報幾何学の言葉では、尤度比検定は「帰無仮説の部分空間」と「データに合う点」のズレを、Fisher 計量や KL の近くで眺める話です。

この見方を持つと、検定はただの手続きではなく、確率分布の地図の上で仮説を比べる方法として理解できます。

次は、Wald・Score・尤度比検定を同じ地図の上で比較します。

次に読む

この記事の前提や続きを確認したい場合は、関連する記事と用語集をあわせて読むと全体像を追いやすくなります。