母比率の検定

正規分布を用いた検定

【問題設定】

  • 前提
    • 成功確率(母比率)$p$ の試行を $n$ 回繰り返す
    • 試行回数 $n$ は十分大きい
  • 調べたいこと
    • 母比率 $p$ がある値と一致すると言えるか否か?

理論

確率 $p$ で成功する試行を $n$ 回繰り返したとき、成功回数 $X$ は二項分布 $B(n, p)$ に従う。
また、$n$ が十分大きい時、二項分布は正規分布に近づく(二項分布を参照):

\[B(n, p) \to N(np, np(1-p)) \qquad \qquad (n \to \infty) \tag{1.1}\]

よって、$n$ が十分大きい時、$X$ を標準化した確率変数 $Z$ は標準正規分布に従う:

\[Z := \cfrac{X - np}{\sqrt{np(1-p)}} \sim N(0, 1) \tag{1.2}\]

この $Z$ を検定統計量として利用する。
また、分母分子を $n$ で割ることで、$Z$ を標本比率 $\hat{p} = X/n$ を用いて表すこともできる:

\[Z = \cfrac{\hat{p} - p}{\sqrt{p(1-p)/n}} \sim N(0, 1) \tag{1.3}\]

次に、有意水準 $\alpha$ のときの両側検定の信頼区間を求める。
正規分布の上側 $\alpha$ 点を $z(\alpha)$ と書けば、正規分布の対称性から $z(1-\alpha) = -z(\alpha)$ が成り立つので、

\[-z(\alpha/2) \le \cfrac{\hat{p} - p}{\sqrt{p(1-p)/n}} \le z(\alpha/2) \tag{1.4}\]

が成り立てば良い。変形して、

\[\hat{p} - z(\alpha/2) \sqrt{\cfrac{p(1-p)}{n}} \le p \le \hat{p} + z(\alpha/2) \sqrt{\cfrac{p(1-p)}{n}}\]

ここで、$n$ が十分大きいので $p(1-p) \simeq \hat{p} (1-\hat{p})$ と近似すれば、

\[\hat{p} - z(\alpha/2) \sqrt{\cfrac{\hat{p}(1-\hat{p})}{n}} \le p \le \hat{p} + z(\alpha/2) \sqrt{\cfrac{\hat{p}(1-\hat{p})}{n}} \tag{1.5}\]

これが母比率 $p$ の信頼区間となる。

【NOTE】$p$ が0や1に近い場合の注意点

色々な $n,p$ で二項分布の分布関数を描くと以下のようになる。
図の通り、$p$ が0や1に近い場合、$n$ がそれなりに大きくても、正規分布から大きく外れた形になりやすい。
そのためこういった場合は、$n$ を十分に大きく取るか、正規分布近似を前提としない別の検定手法を取ることが望ましい。

二項分布

具体例

あるサイコロを6000回振ったとき、1の目が出た回数は1100回だった。
有意水準を 5% として、このサイコロで1の目が出る確率 $p$ は1/6と言えるか。

帰無仮説・対立仮説の設定

  • 帰無仮説 $H_0$:このサイコロで1の目が出る確率 $p = 1/6$
  • 対立仮説 $H_1$:このサイコロで1の目が出る確率 $p \ne 1/6$

となる両側検定を行う。

検定統計量の選定

$n=6000$ は十分大きいとみなし、

\[Z := \cfrac{X - np}{\sqrt{np(1-p)}} \sim N(0, 1)\]

を検定統計量に用いる。

棄却域の計算

有意水準 $\alpha = 0.05$ の両側検定であるから、この $t$ が 正規分布の下側2.5%点 $z(0.975)$ と上側2.5%点 $z(0.025)$ との間にあれば、帰無仮説 $H_0$ は妥当と言える。
正規分布表より $z(0.025) = 1.96,\ z(0.975) = -z(0.025) = -1.96$ と求まるので、帰無仮説 $H_0$ の棄却域は

\[t \le -1.96,\ 1.96 \le t\]

検定統計量の計算

\[n = 6000\] \[x = 1100\]

であるから、帰無仮説 $p=1/6$ が正しいと仮定すると、

\[z = \cfrac{\left( 1100-6000 \cdot \cfrac{1}{6} \right)}{\sqrt{6000 \cdot \cfrac{1}{6} \left( 1-\cfrac{1}{6} \right)}} \simeq 3.46\]

これは棄却域に含まれるので、帰無仮説 $H_0$ は棄却される。

結論

このサイコロで1が出る確率は 1/6 とは言えない(1が出やすい方に歪んでいる)。

母比率の差の検定

正規分布を用いた検定

【問題設定】

  • 前提
    • 成功確率(母比率)$p_A$ の試行 A を $n_A$ 回、$p_B$ の試行 B を $n_B$ 回繰り返す
    • 試行回数 $n_A, n_B$ は十分大きい
  • 調べたいこと
    • 試行 A, B の成功確率 $p_A, p_B$ に有意な差があると言えるか否か?

理論

  • $X_A$:成功確率 $p_A$ の試行を $n_A$ 回数繰り返したときの成功回数
  • $X_B$:成功確率 $p_B$ の試行を $n_B$ 回数繰り返したときの成功回数

とすると、母比率の検定と同様、$n_A, n_B$ が十分の大きければ

\[X_A \sim N(n_A p_A, n_A p_A (1-p_A)),\quad X_B \sim N(n_B p_B, n_B p_B (1-p_B)) \tag{2.1}\]

標本比率 $\hat{p}_A, \hat{p}_B$ は

\[\hat{p}_A = \cfrac{X_A}{n_A}, \quad \hat{p}_B = \cfrac{X_B}{n_B} \tag{2.2}\]

であり、正規分布の再生性(参考)から、

\[\hat{p}_A \sim N \left( p_A, \cfrac{p_A(1-p_A)}{n_A} \right), \quad \hat{p}_B \sim N \left( p_B, \cfrac{p_B(1-p_B)}{n_B} \right) \tag{2.3}\]

これらの差が従う分布は、

\[\hat{p}_A - \hat{p}_B \sim N\left(p_A-p_B, \cfrac{p_A(1-p_A)}{n_A} + \cfrac{p_B(1-p_B)}{n_B} \right) \tag{2.4}\]

標準化して、

\[Z := \cfrac{ (\hat{p}_A - \hat{p}_B) - (p_A - p_B) }{ \sqrt{ \cfrac{p_A(1-p_A)}{n_A} + \cfrac{p_B(1-p_B)}{n_B} } } \sim N(0, 1) \tag{2.5}\]

この $Z$ の表式において、母比率 $p_A, p_B$ は未知なので、標本から計算することができない。

検定のために検定統計量を計算する際、帰無仮説 $H_0$ として $p_A = p_B$(試行 A, B の成功率に差はない)を仮定する。そのため、

\[p_A = p_B = \hat{p} := \cfrac{n_A \hat{p}_A + n_B \hat{p}_B}{n_A + n_B} \tag{2.6}\]

とおけば、

\[Z = \cfrac{ \hat{p}_A - \hat{p}_B }{ \sqrt{ \hat{p}(1-\hat{p}) \left( \cfrac{1}{n_A} + \cfrac{1}{n_B} \right) } } \tag{2.7}\]

この $Z$ を検定の近似値に用いる。

具体例

ある企業が新しい洗顔料を発売した。
A 県の消費者300人と B 県の消費者200人を無作為に抽出し、この洗顔料が今まで利用していたものと比べて汚れを落とす効果が高いかどうかのアンケートを実施すると、結果は以下の通りだった。

  • A 県:300人中192人が「効果が高い」と回答
  • B 県:200人中110人が「効果が高い」と回答

有意水準を 5% として、A 県と B 県とで効果が高いと感じる人の割合 $p_A, p_B$ に有意な差があると言えるか。

帰無仮説・対立仮説の設定

  • 帰無仮説 $H_0$:A 県と B 県とで効果が高いと感じる割合に差はない ($p_A=p_B$)
  • 対立仮説 $H_1$:A 県と B 県とで効果が高いと感じる割合に差がある ($p_A \ne p_B$)

となる両側検定を行う。

検定統計量の選定

標本数 $n_A, n_B$ が十分大きいので、

\[Z = \cfrac{ \hat{p}_A - \hat{p}_B }{ \sqrt{ \hat{p}(1-\hat{p}) \left( \cfrac{1}{n_A} + \cfrac{1}{n_B} \right) } }\]

を検定統計量に用いる。

棄却域の計算

有意水準 $\alpha = 0.05$ の両側検定であるから、この $t$ が 正規分布の下側2.5%点 $z(0.975)$ と上側2.5%点 $z(0.025)$ との間にあれば、帰無仮説 $H_0$ は妥当と言える。
正規分布表より $z(0.025) = 1.96,\ z(0.975) = -z(0.025) = -1.96$ と求まるので、帰無仮説 $H_0$ の棄却域は

\[z \le -1.96,\ 1.96 \le z\]

検定統計量の計算

\[n_A = 300,\quad n_B = 200\] \[\hat{p}_A = \cfrac{192}{300} = 0.64,\qquad \hat{p}_B = \cfrac{110}{200} = 0.55\] \[\hat{p} = \cfrac{300 \cdot 0.64 + 200 \cdot 0.55}{300 + 200} = 0.604\]

であるから、帰無仮説 $p_A=p_B$ が正しいと仮定すると、

\[z = \cfrac{0.64-0.55}{\sqrt{ 0.604(1-0.604)\left( \cfrac{1}{300}+\cfrac{1}{200} \right) }} \simeq 2.02\]

これは棄却域に含まれるので、帰無仮説 $H_0$ は棄却される。

結論

A 県と B 県とで効果が高いと感じる割合に有意な差があると言える。