仮説検定とは

とある仮説に対して、それが正しいのか否かを統計学的に検証する手法。

平均や分散など、母集団の統計量が取りうる値に関して

  • 帰無仮説 $H_0$
    • 否定されることを期待する(= 無に帰してほしい)形で立てられる仮説
    • ex. 工場に新しく導入した部品製造機械のサイズ精度(分散)はこれまで以下
  • 対立仮説 $H_1$
    • 帰無仮説と対になっており、帰無仮説を否定した際に採択される仮説
    • 一般に、仮説検定の目的として立証したい仮説をこちらに設定する
    • ex. 工場に新しく導入した部品製造機械のサイズ精度(分散)はこれまでより良い

を立て、母集団から標本を抽出して仮説の妥当性を検証する。

仮説検定の流れ

  1. 帰無仮説・対立仮説を設定
  2. 検定統計量を選定(適用する検定の方式をを選定)
  3. 有意水準 $\alpha$ を決定
    1. 有意水準:帰無仮説 $H_0$ が間違っていると判断する(帰無仮説を棄却する)基準となる確率。一般に、1%や5%といった値が用いられる
  4. 検定統計量の値を実際に計算
  5. 計算した検定統計量が棄却域に入るか確認 → 帰無仮説を棄却するか判断
    1. 棄却域 (critical region, rejection region):「帰無仮説が成り立つ前提だと非常に起こりにくい現象」と考えられる統計検定量の値の範囲
    2. 検定統計量が棄却域に入ると、帰無仮説が棄却され、対立仮説が採択される
    3. 【注意】検定統計量が棄却域に入らない場合、必ずしも「帰無仮説が正しい」とはならない
      1. せいぜい「帰無仮説を否定する根拠はない」くらい

【NOTE】棄却域に入らないとき「帰無仮説が正しい」とは言えない理由

仮説検定はあくまで、背理法的な論法で対立仮説を証明しようとしている に過ぎない:

  1. もし帰無仮説 $H_0$ が正しいとすると、検定統計量 $q$ が(高確率で)〇〇の範囲に収まるはず
  2. しかし、実際のデータから $q$ を計算すると範囲から外れてしまった
  3. なので、帰無仮説 $H_0$ は誤りで、対立仮説 $H_1$ が正しい(可能性が高い)

最初に「帰無仮説が正しい」という前提を置いて議論を展開し、矛盾を探すという流れなので、矛盾があれば「帰無仮説は正しくない」と言えるが、矛盾がなかった場合は 「帰無仮説を否定する根拠はなかった」 までのことしか言えない。

第1種の過り・第2種の過り

= Type I Error, Type II Error

  真実:帰無仮説 $H_0$ が正しい 真実:対立仮説 $H_1$ が正しい
検定結果:帰無仮説 $H_0$ を棄却しない
(対立仮説 $H_1$ が正しいとは言えない)
正しい検定結果 第2種の誤り
検定結果:帰無仮説 $H_0$ を棄却する
(対立仮説 $H_1$ が正しい)
第1種の誤り 正しい検定結果
  • 第1種の誤り:本当は対立仮説 $H_1$ が正しいのに、帰無仮説 $H_0$ が棄却されない
  • 第2種の誤り:本当は帰無仮説 $H_0$ が正しいのに、帰無仮説 $H_0$ を棄却して対立仮説 $H_1$ を採択してしまう

以下の通り、第1種の誤り・第2種の誤りは互いにトレードオフの関係にあるため、両方を小さくすることはできない。
状況に応じてうまく有意水準のバランスを取る必要がある。

  • 有意水準 $\alpha$ を大きくすると
    • 「めったに起こらない」の判断基準が緩くなる
    • → 帰無仮説 $H_0$ が棄却されやすくなる
    • → 第1種の誤りの可能性が高まる
  • 有意水準 $\alpha$ を小さくすると
    • 「めったに起こらない」の判断基準が厳しくなる
    • → 帰無仮説 $H_0$ が棄却されにくくなる
    • → 第2種の誤りの可能性が高まる

両側検定・片側検定

実施者が立証したい事柄に応じて、両側検定と片側検定を使い分ける。

両側検定

  • 帰無仮説 $H_0$:検定統計量 $a = a_0$
  • 対立仮説 $H_1$:検定統計量 $a \ne a_0$

となるような検定。

利用例:生活習慣の異なるグループ A と B とで特定の病気の発症率に有意な違い(高くても低くても)があるかを検証

critical-both

片側検定

  • 帰無仮説 $H_0$:検定統計量 $a = a_0$
  • 対立仮説 $H_1$:検定統計量 $a \lt a_0$

または

  • 帰無仮説 $H_0$:検定統計量 $a = a_0$
  • 対立仮説 $H_1$:検定統計量 $a \gt a_0$

となるような検定。

利用例:工場に新しく導入した機械の部品製造精度(サイズや重さの分散)が従来のものより高いことを検証

critical-oneside