適合度の検定・独立性の検定

適合度の検定:カイ二乗検定

【問題設定】

  • 前提
    • すべてのデータは $m$ 個のカテゴリ $c_1, \cdots, c_m$ のいずれか1つに属する
    • 標本数 $n$ が十分大きい
  • 調べたいこと
    • 実測したデータの分布が期待する分布と一致するか

理論

【定理】ピアソンの定理

$m$ 個のカテゴリ $c_1, \cdots, c_m$ があり、母集団から取得した標本が全て、一定の確率でいずれか1つのカテゴリに属する場合を考える。

  • $N_i$:標本を $n$ 件集めたとき、カテゴリ $c_i$ に属するサンプル数の実現値を表す確率変数
    • $N_1 + \cdots + N_m = n$
  • $p_i$:カテゴリ $c_i$ にサンプルが属する理論的確率(母比率)
    • $p_1 + \cdots + p_m = 1$
  • $\hat{p}_i$:実際の標本がカテゴリ $c_i$ に属した比率(標本比率)
    • $\hat{p}_i := N_i / n$

とすると、ピアソンの適合度基準

\[\chi^2 := \sum_{i=1}^m \cfrac{(N_i-np_i)^2}{np_i} = \sum_{i=1}^m \cfrac{n(\hat{p}_i-p_i)^2}{p_i}\]

は自由度 $m-1$ のカイ二乗分布 $\chi^2(m-1)$ に従う。

【証明】

$N_i$ は、確率 $p_i$ で成功する試行(抽出したサンプル1つがカテゴリ $c_i$ に属する)を $n$ 回繰り返したときの成功回数と考えられるから、

\[N_i \sim B(n, p_i)\]

二項分布の平均・分散はそれぞれ $E(n_i) = np_i, \ V(n_i) = np_i(1-p_i)$ で与えられ、$n$ が十分大きければ二項分布は正規分布に近似できるから、

\[N_i \sim N(np_i, np_i(1-p_i)) \qquad\qquad (1)\]

新しい確率変数

\[W_i := \cfrac{N_i - np_i}{\sqrt{np_i}}\]

を定義すると、$(1)$ および正規分布の和と積に関する再生性から、

\[W_i \sim N(0, 1-p_i)\]

ここで

\[\begin{eqnarray} E(W_i) &=& E \left( \cfrac{N_i - np_i}{\sqrt{np_i}} \right) = \cfrac{np_i - np_i}{\sqrt{np_i}} = 0 \\ E(W_i W_j) &=& E \left( \cfrac{N_i - np_i}{\sqrt{np_i}} \cfrac{N_j - np_j}{\sqrt{np_j}} \right) \\ &=& E \left( \cfrac{N_i N_j - np_iN_j - np_jN_i + n^2p_ip_j}{\sqrt{n^2p_ip_j}} \right) \\ &=& \cfrac{E(N_iN_j) - np_iE(N_j) - np_jE(N_i) + n^2p_ip_j}{n\sqrt{p_ip_j}} \\ &=& \cfrac{E(N_iN_j) - n^2p_ip_j}{n\sqrt{p_ip_j}} \end{eqnarray}\]

$i = j$ のとき、$(1)$ より

\[\begin{eqnarray} E(N_iN_i) &=& E(N_i^2) \\ &=& V(N_i) + E(N_i)^2 \\ &=& np_i(1-p_i) + n^2p_i^2 \end{eqnarray}\]

$i \ne j$ のとき、

\[\begin{eqnarray} E(N_i N_j) &=& \sum_{k \ge 0, l \ge 0, k+l \le n} kl P(N_i=k,N_j=l) \\ &=& \sum_{k \ge 0, l \ge 0, k+l \le n} kl \cfrac{n!}{k!l!(n-(k+l))!} p_i^k p_j^l (1-p_i-p_j)^{n-(k+l)} \\ &=& n(n-1) p_i p_j (p_i + p_j + (1-p_i-p_j))^{n-2} \\ &=& n(n-1) p_i p_j \end{eqnarray}\]

よって、

\[\begin{eqnarray} E(W_i W_j) &=& \begin{cases} \cfrac{np_i(1-p_i) + n^2p_i^2 - n^2p_i^2}{n\sqrt{p_ip_i}} &\qquad& i = j \\ \cfrac{n(n-1)p_ip_j - n^2p_ip_j}{n\sqrt{p_ip_j}} &\qquad& i \ne j \end{cases} \\ &=& \begin{cases} 1-p_i &\qquad& i=j \\ - \sqrt{p_i p_j} &\qquad& i \ne j \end{cases} \end{eqnarray}\]

以上により、$W_i, W_j$ の共分散は

\[\begin{eqnarray} \mathrm{Cov}(W_i, W_j) &=& E(W_i W_j) - E(W_i)E(W_j) \\ &=& E(W_iW_j) - 0 \cdot 0 \\ &=& \begin{cases} 1-p_i &\qquad& i=j \\ - \sqrt{p_i p_j} &\qquad& i \ne j \end{cases} \end{eqnarray}\]

分散共分散行列 $\Sigma_{ij} = \mathrm{Cov}(W_i, W_j)$ を考える。対称行列 $A_{ij} = \sqrt{p_ip_j}$ を定義すると、

\[\Sigma = I - A\]

と書ける。ただし、$I$ は単位行列。

(ToDo:続き)

【NOTE】

$(1)$ より $Z_1, \cdots, Z_m$ は全て標準正規分布に従うため、$\sum_{i=1}^{m} Z_i^2$ を $\chi^2(m)$ にしたがう検定統計量とみなして良さそうに思える。
しかし、制約 $N_1 + \cdots + N_m = n$、$p_1 + \cdots + p_m = 1$ より、$n_1, \cdots, n_m$ のうち $m-1$ 個が決まれば残り1つは一意に定まり、$p_1, \cdots, p_m$ についても同様のことが言える。
よって $Z_1, \cdots, Z_m$ についても $m-1$ 個が決まれば残り1つが一意に決まるため、これらは独立な確率変数にならない。
したがって、$\sum_{i=1}^m Z_i^2$ は $\chi^2(m)$ に従わない。

【NOTE】$m=2$ のときのピアソンの定理の証明

一般の $m$ の場合は大変だが、$m=2$ の場合は証明が容易で、感覚的にも理解しやすい。

$(1)$ を標準化して変数 $Z_i$ を定義すると、

\[Z_i := \cfrac{N_i - np_i}{\sqrt{np_i(1-p_i)}} \sim N(0, 1)\]

$N_i, p_i$ に関する制約

\[N_1 + N_2 = n, \qquad p_1 + p_2 = 1\]

より $\chi^2$ を計算すると、

\[\begin{eqnarray} \chi^2 &=& \cfrac{(N_1-np_1)^2}{np_1} + \cfrac{(N_2-np_2)^2}{np_2} \\ &=& \cfrac{(N_1-np_1)^2}{np_1} + \cfrac{((n-N_1)-n(1-p_1))^2}{n(1-p_1)} \\ &=& \cfrac{(N_1-np_1)^2}{np_1} + \cfrac{(N_1-np_1)^2}{n(1-p_1)} \\ &=& \cfrac{(N_1-np_1)^2}{np_1(1-p_1)} \\ &=& \left(\cfrac{N_1-np_1}{\sqrt{np_1(1-p_1)}}\right)^2 \\ &=& Z_1^2 \end{eqnarray}\]

$Z_1 \sim N(0,1)$ なので、

\[\chi^2 = Z_1^2 \sim \chi^2(1)\]

具体例

日本人の血液型の比率は $\mathrm{A}:\mathrm{O}:\mathrm{B}:\mathrm{AB} = 4:3:2:1$ であると言われる。
ある小学校の生徒100人を無作為に選んで血液型を調べたとき、その分布は以下のようになっていた。

血液型 人数
A 52
O 19
B 22
AB 7

有意水準を 5% として、この学校の血液型の分布は日本人の平均的な分布に一致すると言えるか。

帰無仮説・対立仮説の設定

  • 帰無仮説 $H_0$:この学校の血液型分布は日本人の平均的な分布に一致する
  • 対立仮説 $H_1$:この学校の血液型分布は日本人の平均的な分布に一致しない

検定統計量の選定

カテゴリ数は4なので、

  • $p_A, p_O, p_B, p_{AB}$:各血液型の母比率
  • $n_A, n_O, n_B, n_{AB}$:各血液型の標本数

とすると、帰無仮説 $H_0$ 下では、ピアソンの適合度基準

\[\chi^2 = \sum_{i=A,O,B,AB} \cfrac{(n_i-np_i)^2}{np_i}\]

は自由度 $4-1 = 3$ のカイ二乗分布に従う。
これを検定統計量として用いる。

棄却域の計算

帰無仮説 $H_0$ が棄却されるのは、実際の分布と平均的な分布とのズレが大きい場合。
そのため、カイ二乗分布 $\chi^2(3)$ による片側検定を行う。
有意水準 $\alpha = 0.05$ であるから、$\chi^2$ が自由度3のカイ二乗分布の上側5%点 $\chi_{0.05}^2$ 以上の範囲にあれば、帰無仮説 $H_0$ は棄却される。

自由度3のカイ二乗分布表より $\chi^2_{0.05} = 7.82$ と求まるので、帰無仮説 $H_0$ の棄却域は

\[7.82 \le \chi^2\]

検定統計量の計算

母比率・標本比率は以下のようになるので、帰無仮説 $H_0$ が正しいと仮定すると

血液型 人数 母比率 $p$
A 52 0.4
O 19 0.3
B 22 0.2
AB 7 0.1
合計 100 1.0
\[\begin{eqnarray} \chi^2 &=& \sum_{i=A,O,B,AB} \cfrac{(n_i-np_i)^2}{np_i} \\ &=& \cfrac{(52-40)^2}{40} + \cfrac{(19-30)^2}{30} + \cfrac{(22-20)^2}{20} + \cfrac{(7-10)^2}{10} \\ &\simeq& 8.73 \end{eqnarray}\]

これは棄却域に含まれるので、帰無仮説 $H_0$ は棄却される。

結論

この学校生徒の血液型分布は、日本人の平均的な分布と比べて有意な差が見られる。

独立性の検定:カイ二乗検定

【問題設定】

  • 前提
    • すべてのデータは複数の分類基準(ex. 性別と血液型)ごとに1つずつのカテゴリに属する
    • 標本数 $n$ が十分大きい
  • 調べたいこと
    • 複数の分類基準の間に関連性があるか

理論

以下のような、複数の分類基準による度数表を クロス集計表 という。

  $B_1$:A 型 $B_2$:O 型 $B_3$:B 型 $B_4$:AB 型 (合計)
$A_1$:男性 55 23 18 7 103
$A_2$:女性 38 32 23 4 97
(合計) 93 55 41 11 200

この例では、

  • 分類基準:「$A$:性別」「$B$:血液型」の2つ
  • それぞれのカテゴリ数 $m_A, m_B$
    • 性別($A$):$m_A = 2$
    • 血液型($B$):$m_B=4$

2つの分類基準 $A, B$ が独立である場合、

  • どの $A_i$ の行を見ても、$B_1, \cdots, B_{m_B}$ の標本比率は同じ
  • どの $B_i$ の列を見ても、$A_1, \cdots, A_{m_A}$ の標本比率は同じ

これを帰無仮説 $H_0$ とする検定を行う。

ここで、

  • $p_{ij}$:サンプルが $A_i$ かつ $B_j$ に属する確率(母比率)
  • $p_{i*} := \sum_{j=1}^{m_B}p_{ij}$:サンプルが $A_i$ に属する確率(母比率)
  • $p_{*j} := \sum_{i=1}^{m_A}p_{ij}$:サンプルが $B_j$ に属する確率(母比率)

とすると、帰無仮説 $H_0$ のもとでは、任意の $i,j$ について

\[p_{ij} = p_{i*} p_{*j}\]

が成り立つ。

ここで、

  • $f_{ij}$:$A_i$ かつ $B_j$ に属する標本度数
  • $f_{i*} := \sum_{j=1}^{m_B}f_{ij}$:$A_i$ に属する標本度数
  • $f_{*j} := \sum_{i=1}^{m_A}f_{ij}$:$B_j$ に属する標本度数

として、標本度数による推定値

\[\hat{p}_{i*} := \cfrac{f_{i*}}{n},\quad \hat{p}_{*j} := \cfrac{f_{*j}}{n}\]

で $p_{i},\ p_{j}$ を置き換える。例えば上の例では、

\[\hat{p}_{1*} = \cfrac{103}{200},\quad \hat{p}_{*3} = \cfrac{41}{200},\]

これを用いて、理論上 $A_i$ かつ $B_j$ に属する度数は

\[n \hat{p}_{i*} \hat{p}_{*j} = \cfrac{f_{i*} f_{*j}}{n}\]

で表される。これと標本度数 $f_{ij}$ のズレを考えて

\[\begin{eqnarray} \chi^2 &:=& \sum_{i=1}^{m_A} \sum_{j=1}^{m_B} \cfrac{(f_{ij} - f_{i*} f_{*j}/n)^2}{f_{i*} f_{*j}/n} \\ &=& \sum_{i=1}^{m_A} \sum_{j=1}^{m_B} \cfrac{(n f_{ij} - f_{i*} f_{*j})^2}{n f_{i*} f_{*j}} \end{eqnarray}\]

とおくと、$\chi^2$ は自由度 $(m_A-1)(m_B-1)$ のカイ二乗分布に従う ことが知られている。

分類基準が3つ以上になっても同様に $\chi^2$ を定義できる:

\[n \hat{p}_{i**} \hat{p}_{*j*} \hat{p}_{**k} = \cfrac{f_{i**} f_{*j*} f_{**k}}{n^2}\] \[\begin{eqnarray} \chi^2 &:=& \sum_{i=1}^{m_A} \sum_{j=1}^{m_B} \sum_{k=1}^{m_C} \cfrac{(f_{ijk} - f_{i**} f_{*j*} f_{**k}/n^2)^2}{f_{i**} f_{*j*} f_{**k}/n^2} \\ &=& \sum_{i=1}^{m_A} \sum_{j=1}^{m_B} \sum_{k=1}^{m_C} \cfrac{(n^2 f_{ijk} - f_{i**} f_{*j*} f_{**k})^2}{n^2 f_{i**} f_{*j*} f_{**k}} \\ &\sim& \chi^2((m_A-1)(m_B-1)(m_C-1)) \end{eqnarray}\]

【NOTE】

クロス集計表の $k_A k_B$ 個のセルの値は、制約

\[\sum_{i=1}^{k_A}P(A_i, B_j) = 1, \ \sum_{j=1}^{k_B}P(A_i, B_j) = 1\]

のため、$(k_A-1)(k_B-1)$ 個までしか自由に決めることはできない($(k_A-1)(k_B-1)$ 個が決まれば残り $k_A+k_B-1$ 個も自動的に決まる)。

具体例

ある学校の生徒200人の性別・血液型を調べた結果は以下の表の通りであった。

  $B_1$:A 型 $B_2$:O 型 $B_3$:B 型 $B_4$:AB 型 (合計)
$A_1$:男性 55 23 18 7 103
$A_2$:女性 38 32 23 4 97
(合計) 93 55 41 11 200

有意水準を 5% として、この学校の血液型分布に男女差があると言えるか。

帰無仮説・対立仮説の設定

  • 帰無仮説 $H_0$:この学校の血液型分布に男女差はない
  • 対立仮説 $H_1$:この学校の血液型分布に男女差がある

検定統計量の選定

カテゴリ数 $m_A = 2,\ m_B = 4$ なので、

\[\chi^2 = \sum_{M,F} \sum_{A,O,B,AB} \cfrac{(n f_{ij} - f_{i*} f_{*j})^2}{n f_{i*} f_{*j}}\]

($M$:male 男性、$F$:female 女性)

は自由度 $(2-1)(4-1) = 3$ のカイ二乗分布に従う。
これを検定統計量として用いる。

棄却域の計算

帰無仮説 $H_0$ が棄却されるのは、実際の度数と理論的な度数とのズレが大きい場合。
そのため、カイ二乗分布 $\chi^2(3)$ による片側検定を行う。
有意水準 $\alpha = 0.05$ であるから、$\chi^2$ が自由度3のカイ二乗分布の上側5%点 $\chi_{0.05}^2$ 以上の範囲にあれば、帰無仮説 $H_0$ は棄却される。

自由度3のカイ二乗分布表より $\chi^2_{0.05} = 7.82$ と求まるので、帰無仮説 $H_0$ の棄却域は

\[7.82 \le \chi^2\]

検定統計量の計算

\(\begin{eqnarray} \chi^2 &=& \sum_{M,F} \sum_{A,O,B,AB} \cfrac{(n f_{ij} - f_{i*} f_{*j})^2}{n f_{i*} f_{*j}} \\ &=& \cfrac{1}{200} \left( \cfrac{(200\cdot55-103\cdot93)^2}{103\cdot93} + \cfrac{(200\cdot23-103\cdot55)^2}{103\cdot55} + \cfrac{(200\cdot18-103\cdot41)^2}{103\cdot41} + \cfrac{(200\cdot7-103\cdot11)^2}{103\cdot11} + \right. \\ && \left. \qquad \quad \cfrac{(200\cdot38-97\cdot93)^2}{97\cdot93} + \cfrac{(200\cdot32-97\cdot55)^2}{97\cdot55} + \cfrac{(200\cdot23-97\cdot41)^2}{97\cdot41} + \cfrac{(200\cdot4-97\cdot11)^2}{97\cdot11} \right) \\ &\simeq& 5.83 \end{eqnarray}\) これは棄却域に含まれるので、帰無仮説 $H_0$ は棄却されない。

結論

この学校の血液型分布に男女差があるとは言えない。