情報幾何から検定へ進むための全体地図
Series
情報幾何から検定へこのシリーズでは、情報幾何学から出発して、検定、A/B テスト、多重検定、選択後推論まで進みます。
一つひとつの記事では、確率分布、Fisher 計量、接空間、最尤推定、p 値、検出力といった言葉を丁寧に見ていきます。
ただ、全部を順番に読む前に、先に全体の地図があったほうが迷いにくいです。
この記事は、そのための俯瞰記事です。
細かい式を覚えるための記事ではありません。むしろ、これから何を見ようとしているのか、どの記事がどの役割を持っているのか、最終的に検定をどう見たいのかを整理するための記事です。
先に結論を言う
このシリーズでやりたいことは、検定を「手続きの暗記」から「確率分布の地図の上で起きていること」へ移すことです。
普通に検定を学ぶと、次のような言葉が次々に出てきます。
- 帰無仮説
- 対立仮説
- 検定統計量
- p 値
- 有意水準
- 信頼区間
- 検出力
- 多重検定
それぞれは大事です。
でも、バラバラに覚えるとかなり苦しいです。
情報幾何の見方を入れると、これらを一つの絵にまとめやすくなります。
確率分布を点として見る。
データから、いま自分がどの点の近くにいるのかを推定する。
帰無仮説を、その空間の中の点、線、面として置く。
推定された点が、帰無仮説からどれくらい離れているかを見る。
その距離を、Fisher 計量という「確率分布に合ったものさし」で測る。
標本サイズが増えると揺れが小さくなるので、同じズレでも見え方が変わる。
これが、このシリーズの中心にある見方です。
帰無仮説の揺れと観測されたズレ
検定では、帰無仮説のもとで自然に起きる揺れと、観測された統計量の位置を比べます。
全体の流れ
このシリーズは、大きく分けると 5 つの段階で進みます。
| 段階 | 見るもの | 直感 | 主な記事 |
|---|---|---|---|
| 1 | 確率分布の空間 | 分布を点として見る | 情報幾何学は確率の地図を描く考え方 |
| 2 | 推定と仮説 | データから点を選び、仮説を置く | 推定から検定へ進む前に |
| 3 | 収束と揺れ | 標本サイズが増えると点の揺れが小さくなる | 収束の違いを情報幾何で見る |
| 4 | 古典的な検定 | 距離、高さ、坂道で帰無仮説を疑う | 尤度比検定を情報幾何の地図で見る |
| 5 | 実務の検定 | A/B、検出力、多重検定へ広げる | 平均差検定と A/B テストを地図で見る |
この流れを一言で言うと、次のようになります。
「分布の地図を作る」から始めて、「その地図の上で仮説を調べる」へ進み、最後に「実務で検定を使うときの落とし穴」まで見る。
記事ごとの役割
ここからは、それぞれの記事が何を担当しているかを見ます。
1. 情報幾何学は確率の地図を描く考え方
情報幾何学は確率の地図を描く考え方では、確率分布を点として見るところから始めます。
ここでは、いきなり検定には入りません。
まずは、確率分布の空間に次のものがあると考えます。
- 点
- 座標
- 接ベクトル
- ベクトル場
- Fisher 計量
- 双対座標
- ポテンシャル関数
- Legendre 変換
言葉だけ見ると難しそうですが、最初に押さえたいのは一つだけです。
確率分布は、ただの式ではなく、空間の中の点として眺められる。
この見方ができると、推定や検定も「点を選ぶ」「距離を見る」「曲がった空間を近似する」という話に置き換えられます。
2. 推定から検定へ進む前に
推定から検定へ進む前にでは、推定と検定の違いを整理します。
推定は、データに合う分布を選ぶ話です。
検定は、先に置いた仮説から見て、データがどれくらい珍しいかを見る話です。
ここを分けないまま進むと、p 値を「仮説が正しい確率」のように読んでしまいやすくなります。
でも p 値はそうではありません。
p 値は、帰無仮説が正しいとしたときに、今と同じくらい極端なデータがどれくらい起こるかを表す量です。
まずはコイン検定を手で動かす
値を動かして、検定統計量・p 値・標準誤差・情報量の見え方を確認できます。
サンプルでは、コインを投げた回数と表の回数を動かせます。
同じ表の割合でも、投げた回数が変わると p 値やズレの見え方が変わります。
これが、検定で標本サイズが効いてくる最初の直感です。
3. 収束の違いを情報幾何で見る
収束の違いを情報幾何で見るでは、「何がどこへ近づくのか」を整理します。
統計学では収束という言葉が何度も出てきます。
しかし、収束にはいくつか種類があります。
- 推定量が真の値へ近づく
- 分布が正規分布へ近づく
- 検定統計量が 分布へ近づく
- 最適化アルゴリズムが解へ近づく
これらを全部同じ「収束」として読むと混乱します。
情報幾何の言葉では、真の分布の近くで空間を接空間として近似し、その上で推定量の揺れを見る、という絵を作れます。
この絵があると、漸近正規性や Wilks の定理が少し見通しよくなります。
4. 尤度比検定を情報幾何の地図で見る
尤度比検定を情報幾何の地図で見るでは、いよいよ検定らしい話に入ります。
尤度比検定は、ざっくり言えば、次の 2 つを比べる方法です。
- 帰無仮説の中で一番データに合う点
- 制限なしで一番データに合う点
もし制限なしのほうが圧倒的によくデータを説明するなら、帰無仮説は疑わしくなります。
情報幾何では、帰無仮説を空間の中の部分空間として見ます。
そして、制限ありの点と制限なしの点の違いを、対数尤度の高さや Fisher 計量で読んでいきます。
5. Wald・Score・尤度比検定を同じ地図で見る
Wald・Score・尤度比検定を同じ地図で見るでは、3 つの有名な検定を同じ図の上で比較します。
この 3 つは、見ている場所が違います。
| 検定 | どこを見るか | 直感 |
|---|---|---|
| Wald 検定 | 制限なしの最尤点 | 推定された点が帰無仮説からどれくらい離れたか |
| Score 検定 | 帰無仮説上の点 | 帰無仮説の点で、まだ外へ進みたがっているか |
| 尤度比検定 | 制限ありと制限なしの高さ | 自由に動けるとどれくらい説明力が増えるか |
大標本では、この 3 つは近い答えを返します。
理由は、真の点の近くでは対数尤度の山を二次関数として近似できるからです。
ただし有限標本では、3 つの結果がずれることがあります。
その違いを「どの点で、何を見ているか」として理解するのがこの記事の役割です。
6. 信頼区間と検定は同じ不確実性を見ている
信頼区間と検定は同じ不確実性を見ているでは、検定と区間推定をつなげます。
検定は、帰無仮説の点を疑うかどうかを見ます。
信頼区間は、データから見てもっともらしい点の範囲を見ます。
この 2 つは別物に見えますが、背後では同じ標準誤差や Fisher 情報量が効いています。
たとえば 95% 信頼区間に帰無仮説の値が入っていなければ、対応する両側検定では有意になりやすいです。
これは偶然の一致ではありません。
どちらも、推定量の揺れと観測されたズレを比べているからです。
7. 平均差検定と A/B テストを地図で見る
平均差検定と A/B テストを地図で見るでは、話を実務に寄せます。
A/B テストでは、2 つの施策の差を見ます。
しかし、見えている差には偶然の揺れが混ざっています。
だから、単純に「A のほうが 1% 高かった」だけでは判断できません。
その 1% が、標準誤差に比べてどれくらい大きいのかを見る必要があります。
ここでも同じです。
観測された差と、偶然の揺れを比べる。
そのためのものさしとして、標準誤差や Fisher 情報量が出てきます。
8. 検出力とサンプルサイズを情報量で考える
検出力とサンプルサイズを情報量で考えるでは、検定を「あとから判定するもの」ではなく「事前に設計するもの」として見ます。
検出力は、本当に差があるときに、その差を見つけられる確率です。
差が小さいと見つけにくい。
標本サイズが小さいと見つけにくい。
ばらつきが大きいと見つけにくい。
この当たり前に見える話を、情報幾何では「分布どうしの距離」と「標本サイズで増える情報量」として整理できます。
標本サイズが増えると、推定量の揺れはだいたい で小さくなります。
だから、同じ効果量でも が増えると見つけやすくなります。
9. 多重検定と選択後推論の入口
多重検定と選択後推論の入口では、たくさん試すことの怖さを見ます。
1 回だけ検定するなら、有意水準 5% は「帰無仮説が正しいとき、だいたい 5% の確率で間違って有意と言う」という意味です。
でも、100 回検定したらどうなるでしょうか。
それぞれが 5% なら、どこか 1 つくらい有意になっても不思議ではありません。
さらに、データを見てから良さそうな仮説だけを選び、その同じデータで検定すると、p 値の読み方はもっと難しくなります。
これが選択後推論、Selective Inference へ進む入口です。
概念の対応表
このシリーズで何度も出てくる言葉を、対応表にしておきます。
| 統計の言葉 | 情報幾何の見方 | まず持つ直感 |
|---|---|---|
| 確率分布 | 空間の中の点 | モデルを 1 点として置く |
| パラメータ | 座標 | 同じ点を表すためのラベル |
| 推定 | データに合う点を選ぶ | 観測から現在地を決める |
| 最尤推定 | 尤度が最大の点を選ぶ | データを一番自然に説明する点 |
| Fisher 情報量 | 計量 | 分布の違いを測るものさし |
| 標準誤差 | 推定点の揺れ | 現在地のぼやけ具合 |
| 帰無仮説 | 点、線、面、部分空間 | まず基準にする場所 |
| 検定統計量 | 距離、高さ、坂道の要約 | ズレを 1 つの数にする |
| p 値 | 帰無仮説のもとでの珍しさ | このズレは偶然で起こりやすいか |
| 信頼区間 | もっともらしい点の範囲 | 現在地の候補範囲 |
| 検出力 | 差を見つける力 | 別の点にいるとき気づけるか |
| 多重検定 | 何度も地図を見て探すこと | たくさん探すほど偶然の発見が増える |
| 選択後推論 | 見つけた後の条件付き推論 | 探した事実込みで珍しさを測り直す |
この表を完璧に覚える必要はありません。
ただ、検定で詰まったときに「いま自分は点を見ているのか、距離を見ているのか、揺れを見ているのか」と戻れると、かなり整理しやすくなります。
3 つの読み方
このシリーズは長いので、目的に応じて読み方を変えてよいです。
まず検定を理解したい場合
統計の検定を優先したいなら、次の順番がおすすめです。
この読み方では、情報幾何の細かい話は必要になったところで拾えば十分です。
情報幾何を丁寧に見たい場合
確率分布の空間そのものに興味があるなら、次の順番がおすすめです。
この読み方では、Fisher 計量、接空間、双対座標、ポテンシャル関数を先に押さえます。
検定は、その応用として後から見ます。
A/B テストや実務から入りたい場合
実務の意思決定に近いところから入りたいなら、次の順番がおすすめです。
この読み方では、まず「差をどう見るか」「どれくらいのサンプルが必要か」「たくさん試すと何が起きるか」を押さえます。
そのあと、必要に応じて情報幾何の記事へ戻ると理解しやすいです。
迷いやすいところ
このシリーズで特に迷いやすいところも、先にまとめておきます。
最後に目指したい理解
このシリーズを読み終えたとき、検定を次のように見られる状態を目指します。
検定は、機械的に p 値を出して有意かどうかを決める作業ではありません。
データがあり、モデルがあり、仮説があります。
データから推定された点は揺れています。
その揺れの大きさは、標本サイズや情報量で変わります。
帰無仮説は、空間の中の基準になる場所です。
観測された点がそこからどれくらい離れているかを、確率分布に合ったものさしで測ります。
そのズレが、帰無仮説のもとで自然な揺れとして説明できるのか、それともかなり珍しいのかを判断します。
さらに、検定を何度も行うなら、偶然の発見が増えます。
データを見てから仮説を選んだなら、その選択も推論の中に入れる必要があります。
ここまでつながると、情報幾何学は単なる抽象数学ではなく、検定の意味を整理するための地図になります。
まずは、情報幾何学は確率の地図を描く考え方から読み始めると、確率分布を点として見る感覚を作りやすいです。
次に読む
この記事の前提や続きを確認したい場合は、関連する記事と用語集をあわせて読むと全体像を追いやすくなります。