仮説検定とは
とある仮説に対して、それが正しいのか否かを統計学的に検証する手法。
平均や分散など、母集団の統計量が取りうる値に関して
- 帰無仮説 $H_0$
- 否定されることを期待する(= 無に帰してほしい)形で立てられる仮説
- ex. 工場に新しく導入した部品製造機械のサイズ精度(分散)はこれまで以下
- 対立仮説 $H_1$
- 帰無仮説と対になっており、帰無仮説を否定した際に採択される仮説
- 一般に、仮説検定の目的として立証したい仮説をこちらに設定する
- ex. 工場に新しく導入した部品製造機械のサイズ精度(分散)はこれまでより良い
を立て、母集団から標本を抽出して仮説の妥当性を検証する。
仮説検定の流れ
- 帰無仮説・対立仮説を設定
- 検定統計量を選定(適用する検定の方式をを選定)
- 有意水準 $\alpha$ を決定
- 有意水準:帰無仮説 $H_0$ が間違っていると判断する(帰無仮説を棄却する)基準となる確率。一般に、1%や5%といった値が用いられる
- 検定統計量の値を実際に計算
- 計算した検定統計量が棄却域に入るか確認 → 帰無仮説を棄却するか判断
- 棄却域 (critical region, rejection region):「帰無仮説が成り立つ前提だと非常に起こりにくい現象」と考えられる統計検定量の値の範囲
- 検定統計量が棄却域に入ると、帰無仮説が棄却され、対立仮説が採択される
- 【注意】検定統計量が棄却域に入らない場合、必ずしも「帰無仮説が正しい」とはならない
- せいぜい「帰無仮説を否定する根拠はない」くらい
【NOTE】棄却域に入らないとき「帰無仮説が正しい」とは言えない理由
仮説検定はあくまで、背理法的な論法で対立仮説を証明しようとしている に過ぎない:
- もし帰無仮説 $H_0$ が正しいとすると、検定統計量 $q$ が(高確率で)〇〇の範囲に収まるはず
- しかし、実際のデータから $q$ を計算すると範囲から外れてしまった
- なので、帰無仮説 $H_0$ は誤りで、対立仮説 $H_1$ が正しい(可能性が高い)
最初に「帰無仮説が正しい」という前提を置いて議論を展開し、矛盾を探すという流れなので、矛盾があれば「帰無仮説は正しくない」と言えるが、矛盾がなかった場合は 「帰無仮説を否定する根拠はなかった」 までのことしか言えない。
第1種の過り・第2種の過り
= Type I Error, Type II Error
真実:帰無仮説 $H_0$ が正しい | 真実:対立仮説 $H_1$ が正しい | |
---|---|---|
検定結果:帰無仮説 $H_0$ を棄却しない (対立仮説 $H_1$ が正しいとは言えない) |
正しい検定結果 | 第2種の誤り |
検定結果:帰無仮説 $H_0$ を棄却する (対立仮説 $H_1$ が正しい) |
第1種の誤り | 正しい検定結果 |
- 第1種の誤り:本当は対立仮説 $H_1$ が正しいのに、帰無仮説 $H_0$ が棄却されない
- 第2種の誤り:本当は帰無仮説 $H_0$ が正しいのに、帰無仮説 $H_0$ を棄却して対立仮説 $H_1$ を採択してしまう
以下の通り、第1種の誤り・第2種の誤りは互いにトレードオフの関係にあるため、両方を小さくすることはできない。
状況に応じてうまく有意水準のバランスを取る必要がある。
- 有意水準 $\alpha$ を大きくすると
- 「めったに起こらない」の判断基準が緩くなる
- → 帰無仮説 $H_0$ が棄却されやすくなる
- → 第1種の誤りの可能性が高まる
- 有意水準 $\alpha$ を小さくすると
- 「めったに起こらない」の判断基準が厳しくなる
- → 帰無仮説 $H_0$ が棄却されにくくなる
- → 第2種の誤りの可能性が高まる
両側検定・片側検定
実施者が立証したい事柄に応じて、両側検定と片側検定を使い分ける。
両側検定
- 帰無仮説 $H_0$:検定統計量 $a = a_0$
- 対立仮説 $H_1$:検定統計量 $a \ne a_0$
となるような検定。
利用例:生活習慣の異なるグループ A と B とで特定の病気の発症率に有意な違い(高くても低くても)があるかを検証
片側検定
- 帰無仮説 $H_0$:検定統計量 $a = a_0$
- 対立仮説 $H_1$:検定統計量 $a \lt a_0$
または
- 帰無仮説 $H_0$:検定統計量 $a = a_0$
- 対立仮説 $H_1$:検定統計量 $a \gt a_0$
となるような検定。
利用例:工場に新しく導入した機械の部品製造精度(サイズや重さの分散)が従来のものより高いことを検証