二項分布とは
成功確率 $p$ が分かっている試行を $n$ 回行ったときの「成功回数」$X$ が従う分布。
確率密度関数は以下の式で表される。
\[\begin{eqnarray} f_{p,n}(x) &=& {}_n \mathrm{C}_x p^x (1-p)^{n-x} \\ &=& \cfrac{n!}{(n-x)!x!} p^x (1-p)^{n-x} \end{eqnarray}\]二項分布の期待値・分散
期待値
\[\begin{eqnarray} E(X) &=& \displaystyle \sum_{k=0}^{n} k f_{p,n}(k) = \displaystyle \sum_{k=1}^{n} k f_{p,n}(k) \\ &=& \displaystyle \sum_{k=1}^{n} k \cfrac{n!}{(n-k)!k!} p^k (1-p)^{n-k} \\ &=& n \displaystyle \sum_{k=1}^{n} \cfrac{(n-1)!}{((n-1)-(k-1))!(k-1)!} p^k (1-p)^{n-k} \\ &=& np \displaystyle \sum_{k=1}^{n} {}_{n-1} \mathrm{C}_{k-1} p^{k-1} (1-p)^{n-k} \\ &=& np \displaystyle \sum_{k=0}^{n-1} {}_{n-1} \mathrm{C}_{k} p^{k} (1-p)^{(n-1)-k} \\ &=& np (p + (1-p))^{n-1} \\ &=& np \end{eqnarray}\]分散
まず $E(X^2)$ を求める。
\[\begin{eqnarray} E(X^2) &=& \displaystyle \sum_{k=0}^{n} k^2 f_{p,n}(k) = \displaystyle \sum_{k=1}^{n} k^2 f_{p,n}(k) \\ &=& \displaystyle \sum_{k=1}^{n} k^2 \cfrac{n!}{(n-k)!k!} p^k (1-p)^{n-k} \\ &=& \displaystyle \sum_{k=1}^{n} (k(k-1)+k) \cfrac{n!}{(n-k)!k!} p^k (1-p)^{n-k} \\ &=& \displaystyle \sum_{k=1}^{n} \cfrac{k(k-1)n!}{(n-k)!k!} p^k (1-p)^{n-k} + \displaystyle \sum_{k=1}^{n} \cfrac{n!}{(n-k)!(k-1)!} p^k (1-p)^{n-k} \end{eqnarray}\]$k=1$ のとき $k(k-1)=0$ であるから、第一項は $k=2$ から和を取り始めても良いので、
\[\begin{eqnarray} E(X^2) &=& \displaystyle \sum_{k=2}^{n} \cfrac{k(k-1)n!}{(n-k)!k!} p^k (1-p)^{n-k} + \displaystyle \sum_{k=1}^{n} \cfrac{n!}{(n-k)!(k-1)!} p^k (1-p)^{n-k} \\ &=& \displaystyle \sum_{k=2}^{n} \cfrac{n!}{(n-k)!(k-2)!} p^k (1-p)^{n-k} + \displaystyle \sum_{k=1}^{n} \cfrac{n!}{(n-k)!(k-1)!} p^k (1-p)^{n-k} \\ &=& n(n-1)p^2 \displaystyle \sum_{k=0}^{n-2} \cfrac{(n-2)!}{((n-2)-k)!k!} p^k (1-p)^{(n-2)-k} + np \displaystyle \sum_{k=0}^{n-1} \cfrac{(n-1)!}{((n-1)-k)!k!} p^k (1-p)^{(n-1)-k} \\ &=& n(n-1)p^2 (p+(1-p))^{n-2} + np (p+(1-p))^{n-1} \\ &=& n(n-1)p^2 + np \end{eqnarray}\]よって
\[\begin{eqnarray} V(X) &=& E(X^2) - E(X)^2 \\ &=& n(n-1)p^2 + np - (np)^2 \\ &=& np(1-p) \end{eqnarray}\]モーメント母関数
\[\begin{eqnarray} M_X(t) &=& \displaystyle \sum_{k=0}^{n} e^{kt} f_{p,n}(k) \\ &=& \displaystyle \sum_{k=0}^{n} e^{kt} \cfrac{n!}{(n-k)!k!} p^k (1-p)^{n-k} \\ &=& \displaystyle \sum_{k=0}^{n} \cfrac{n!}{(n-k)!k!} (e^t p)^k (1-p)^{n-k} \\ &=& \displaystyle \sum_{k=0}^{n} {}_n \mathrm{C}_k (e^t p)^k (1-p)^{n-k} \\ &=& (e^t p + 1 - p)^n \end{eqnarray}\]二項分布の特徴
(描画に使った Python コード)
import numpy as np
import math
from matplotlib import pyplot as plt
def ln_factorial(n):
"""階乗の log を計算するための補助関数"""
ret = 0
for i in range(1, n+1):
ret += np.log(i)
return ret
def binomial(k, p, n):
log_binomial = ln_factorial(n) - ln_factorial(n-k) - ln_factorial(k) + k * np.log(p) + (n-k) * np.log(1-p)
return np.exp(log_binomial)
plt.figure(figsize=(8, 9))
plt.subplots_adjust(wspace=0.4, hspace=0.6)
cnt_fig = 1
for p in [0.01, 0.1, 0.5, 0.9, 0.99]:
for n in [10, 100, 1000]:
plt.subplot(5, 3, cnt_fig)
k = np.array(range(n+1))
bi = np.zeros(k.shape)
for i in range(n+1):
bi[i] = binomial(k[i], p, n)
plt.title('$p={}, n={}$'.format(p, n))
plt.plot(k, bi)
cnt_fig += 1
plt.show()
二項分布の性質
正規分布への近似
【定理】ド・モアブル-ラプラスの定理
試行回数 $n$ が十分に大きい時、二項分布 $B(n, p)$ は正規分布 $N(np, np(1-p))$ に近づく。
【証明】
二項分布における確率変数 $X$ は、成功確率 $p$ の試行を独立に $n$ 回行ったときの成功回数。
よって、確率 $p$ で1、確率 $1-p$ で0の値を取る確率変数 $Y$ を導入し、その標本を $Y_i$ すると、
と表せる。ここで、$\bar{Y}$ は $Y$ の標本平均。
二項分布に従う $X$ を用いて、$\bar{Y}$ の期待値と分散を計算すると、
\[\begin{eqnarray} E\left( \bar{Y} \right) &=& E\left( \cfrac{X}{n} \right) = \cfrac{1}{n} E(X) = \cfrac{1}{n} \cdot np = p \\ V\left( \bar{Y} \right) &=& V\left( \cfrac{X}{n} \right) = \cfrac{1}{n^2} V(X) = \cfrac{1}{n^2} \cdot np(1-p) = \cfrac{p(1-p)}{n} \end{eqnarray}\]中心極限定理により、$n \to \infty$ のとき、$Y$ の分布に寄らず $Y$ の標本平均 $\bar{Y}$ は正規分布に従うので、
\[\bar{Y} \sim N\left(p, \cfrac{p(1-p)}{n} \right) \qquad\qquad (n \to \infty)\]正規分布に従う確率変数の定数倍もまた正規分布にしたがうから、
\[X = n \bar{Y} \sim N\left(np, n^2\cdot\cfrac{p(1-p)}{n} \right) = N(np, np(1-p)) \qquad\qquad (n \to \infty)\]すなわち、
\[B(n, p) \to N(np, np(1-p)) \qquad\qquad (n \to \infty)\]