正規分布とは
期待値を $\mu$、分散を $\sigma^2$ として、確率密度関数が以下の式で与えられる分布。
$N(\mu, \sigma^2)$ で表す。
工業製品の規格誤差や人間の体重など、自然に生じる誤差や個体差は、正規分布になることが多い。
標準正規分布
期待値を $\mu$、分散を $\sigma^2$ の正規分布に従う確率変数 $x$ について、$x$ を標準化した
\[z := \cfrac{x-\mu}{\sigma}\]は、標準正規分布 $N(0, 1)$:期待値 $0$、分散 $1$ の正規分布にしたがう。
これは後述の「和の再生成」「積の再生成」の性質から証明できる。
正規分布の性質
分布の形状と標準偏差
【定例】 $N(\mu,\sigma^2)$ の正規分布に従う確率変数 $x$ において、
- $x=\mu$ はグラフの最大値を取る
- $x = \mu \pm \sigma$ はグラフの変曲点となる
【証明】
確率変数 $X$ が正規分布 $N(\mu, \sigma^2)$ に従うとすると、その確率密度関数は
\[f(x) = \cfrac{1}{\sqrt{2\pi}\sigma} \exp{\left( - \cfrac{(x-\mu)^2}{2\sigma^2} \right)}\]1階微分、2階微分を求めると
\[\begin{eqnarray} f'(x) &=& \cfrac{1}{\sqrt{2\pi}\sigma} \left( - \cfrac{x-\mu}{\sigma^2} \right) \exp{\left( - \cfrac{(x-\mu)^2}{2\sigma^2} \right)} \\ f''(x) &=& \cfrac{1}{\sqrt{2\pi}\sigma} \left\{ \cfrac{-1}{\sigma^2} \exp{\left( - \cfrac{(x-\mu)^2}{2\sigma^2} \right)} + \left( - \cfrac{x-\mu}{\sigma^2} \right)^2 \exp{\left( - \cfrac{(x-\mu)^2}{2\sigma^2} \right)} \right\} \\ &=& \cfrac{1}{\sqrt{2\pi}\sigma} \cfrac{(x-\mu)^2-\sigma^2}{\sigma^4} \exp{\left( - \cfrac{(x-\mu)^2}{2\sigma^2} \right)} \\ &=& \cfrac{1}{\sqrt{2\pi}\sigma} \cfrac{\left\{x-(\mu+\sigma)\right\} \left\{x-(\mu-\sigma)\right\}}{\sigma^4} \exp{\left( - \cfrac{(x-\mu)^2}{2\sigma^2} \right)} \end{eqnarray}\]したがって $f’(x),f’‘(x)$ の符号を調べて増減表を書くと
$x$ | $-\infty$ | $\cdots$ | $\mu-\sigma$ | $\cdots$ | $\mu$ | $\cdots$ | $\mu+\sigma$ | $\cdots$ | $\infty$ |
---|---|---|---|---|---|---|---|---|---|
$f’(x)$ | $0$ | $+$ | $+$ | $+$ | $0$ | $-$ | $-$ | $-$ | $0$ |
$f’‘(x)$ | $0$ | $+$ | $0$ | $-$ | $-$ | $-$ | $0$ | $+$ | $0$ |
$f(x)$ | $0$ | $1/\sqrt{2\pi}\sigma$ | $0$ |
増減表より $f(x)$ は $x \lt \mu$ で単調増加、$\mu \lt x$ で単調減少なので、$x=\mu$ で最大値を取る。
また、$x=\mu \pm \sigma$ の前後で $f’‘(x)$ の符号が変わるため、$x=\mu \pm \sigma$ は変曲点となる。
中心極限定理
推定や検定で利用する、統計学上非常に重要な定理。
中心極限定理を参照。
和の再生性
【定理】 互いに独立な確率変数 $X, Y$ について
\[\begin{eqnarray} X &\sim& N(\mu_x, \sigma_x^2) \\ Y &\sim& N(\mu_y, \sigma_y^2) \end{eqnarray}\]が成り立つとき、$Z := X+Y$ について
\[Z \sim N(\mu_x + \mu_y, \sigma_x^2 + \sigma_y^2)\]が成り立つ。
【証明】
独立な確率変数の和の確率密度関数は、それぞれの変数の密度関数の畳込みで与えられる(参考)ので、$X, Y, Z$ の確率密度関数をそれぞれ $f_X, f_Y, f_Z$ とすると、
\[\begin{eqnarray} f_Z (z) &=& \int_{-\infty}^\infty f_X (t) f_Y (z-t) dt \\ &=& \int_{-\infty}^\infty \cfrac{1}{\sqrt{2\pi}\sigma_x} \exp{\left( -\cfrac{(t-\mu_x)^2}{2\sigma_x^2} \right)} \cfrac{1}{\sqrt{2\pi}\sigma_y} \exp{\left( -\cfrac{(z-t-\mu_y)^2}{2\sigma_y^2} \right)} dt \\ &=& \cfrac{1}{2 \pi \sigma_x \sigma_y} \int_{-\infty}^\infty \exp{\left( -\cfrac{(t-\mu_x)^2}{2\sigma_x^2} -\cfrac{(z-t-\mu_y)^2}{2\sigma_y^2} \right)} dt \\ &=& \cfrac{1}{2 \pi \sigma_x \sigma_y} \int_{-\infty}^\infty \exp{\left( -\cfrac{\sigma_x^2 + \sigma_y^2}{2\sigma_x^2 \sigma_y^2}(t+C)^2 - \cfrac{(z-(\mu_x + \mu_y))^2}{2(\sigma_x^2 + \sigma_y^2)} \right)} dt \qquad \left( C = \cfrac{-z\sigma_x^2+\mu_y \sigma_x^2-\mu_x \sigma_y^2}{\sigma_x^2+\sigma_y^2} \right) \\ &=& \cfrac{1}{2 \pi \sigma_x \sigma_y} \exp{\left( - \cfrac{(z-(\mu_x + \mu_y))^2}{2(\sigma_x^2 + \sigma_y^2)} \right)} \int_{-\infty}^\infty \exp{\left( -\cfrac{\sigma_x^2 + \sigma_y^2}{2\sigma_x^2 \sigma_y^2}(t+C)^2 \right)} dt \\ &=& \cfrac{1}{2 \pi \sigma_x \sigma_y} \exp{\left( - \cfrac{(z-(\mu_x + \mu_y))^2}{2(\sigma_x^2 + \sigma_y^2)} \right)} \sqrt{\cfrac{2 \pi \sigma_x^2 \sigma_y^2}{\sigma_x^2 + \sigma_y^2}} \\ &=& \cfrac{1}{\sqrt{2 \pi (\sigma_x^2 + \sigma_y^2)}} \exp{\left( - \cfrac{(z-(\mu_x + \mu_y))^2}{2(\sigma_x^2 + \sigma_y^2)} \right)} \end{eqnarray}\]これは平均 $\mu_x + \mu_y$、分散 $\sigma_x^2 + \sigma_y^2$ の正規分布の確率密度関数。
※ 途中、ガウス積分の公式
\[\int_{-\infty}^\infty e^{-a(x+C)^2} dx = \sqrt{\cfrac{\pi}{a}}\]を用いた。
積の再生性
【定理】 確率変数 $X$ について
\[X \sim N(\mu, \sigma^2)\]が成り立つとき、$Z := aX$ について
\[Z \sim N(a\mu, a^2 \sigma^2)\]が成り立つ。
【証明】
\[\begin{eqnarray} f_X (x) dx &=& \cfrac{1}{\sqrt{2\pi}\sigma} \exp{\left( -\cfrac{(x-\mu)^2}{2\sigma^2} \right)} dx \\ &=& \cfrac{1}{\sqrt{2\pi}\sigma} \exp{\left( -\cfrac{(z/a-\mu)^2}{2\sigma^2} \right)} \left( \cfrac{1}{a} dz \right) \qquad (z = ax) \\ &=& \cfrac{1}{\sqrt{2\pi} a \sigma} \exp{\left( -\cfrac{(z-a\mu)^2}{2a^2\sigma^2} \right)} dz \end{eqnarray}\]よって、$Z$ の確率密度関数 $f_Z$ は
\[f_Z(z) = \cfrac{1}{\sqrt{2\pi} a \sigma} \exp{\left( -\cfrac{(z-a\mu)^2}{2a^2\sigma^2} \right)}\]これは平均 $a\mu$ 分散 $a^2\sigma^2$ の正規分布であるから、
\[Z \sim N(a\mu, a^2 \sigma^2)\]