順位相関係数とは

$n$ 個のデータ $d_1, d_2, \cdots, d_n$ を2つの基準 $S, S’$ によって順位付けする場合を考える。
このとき、この順位付け基準 $S, S’$ に相関があるかどうかを 順位相関係数 によって評価できる。

定式化

  • $i$ 番目のデータ $d_i$ を基準 $S, S’$ によって順位付けした値をそれぞれ $R_i, R’_i$ とする
  • $R_i, R’_i$ の平均値をそれぞれ $\bar{R}, \bar{R’}$ とする

スピアマンの順位相関係数

定義

2つの変数 $R_i, R’_i$ に対して、一般的な相関係数の式を適用した

\[\begin{eqnarray} r_S &:=& \cfrac{ \displaystyle \sum_{i=1}^n (R_i - \bar{R}) (R'_i - \bar{R'}) }{ \displaystyle \sqrt{ \sum_{i=1}^n (R_i - \bar{R})^2 } \sqrt{ \sum_{i=1}^n (R'_i - \bar{R'})^2 } } \\ &=& 1 - \cfrac{6}{n^3-n} \sum_{i=1}^n (R_i - R'_i)^2 \tag{1} \end{eqnarray}\]

スピアマンの順位相関係数 という。

導出

$R_i$ は $n$ 個の観測対象につけられる順位であるから、$R_1, \cdots, R_n$ は $1, 2, \cdots, n$ の値のいずれかを重複なく取る。

したがって、

\[\begin{eqnarray} \sum_{i=1}^n R_i &=& 1 + 2 + \cdots + n = \sum_{k=1}^n k = \cfrac{n(n+1)}{2} \tag{2} \\ \\ \sum_{i=1}^n R_i^2 &=& 1^2 + 2^2 + \cdots + n^2 = \sum_{k=1}^n k^2 = \cfrac{n(n+1)(2n+1)}{6} \tag{3} \\ \\ \bar{R} &=& \cfrac{1}{n} \sum_{i=1}^n R_i = \cfrac{n+1}{2} \tag{4} \\ \\ \sum_{i=1}^n (R_i-\bar{R})^2 &=& \sum_{i=1}^n R_i^2 - 2 \bar{R} \sum_{i=1}^n R_i + \bar{R}^2 \sum_{i=1}^n 1 \\ &=& \cfrac{n(n+1)(2n+1)}{6} - 2 \cdot \cfrac{n+1}{2} \cdot \cfrac{n(n+1)}{2} + \left( \cfrac{n+1}{2} \right)^2 \cdot n \\ &=& \cfrac{n(n+1)(n-1)}{12} = \cfrac{n^3-n}{12} \tag{5} \end{eqnarray}\]

$R’_i, \bar{R’}$ についても同様に計算できる。

$(2),(4)$ 式を用いて、

\[\begin{eqnarray} \sum_{i=1}^n (R_i - \bar{R}) (R'_i - \bar{R'}) &=& \sum_{i=1}^n R_i R'_i + \bar{R} \bar{R'} \sum_{i=1}^n 1 - \bar{R} \sum_{i=1}^n R'_i - \bar{R'} \sum_{i=1}^n R_i \\ &=& \sum_{i=1}^n R_i R'_i + \cfrac{n+1}{2} \cdot \cfrac{n+1}{2} \cdot n - \cfrac{n+1}{2} \cdot \cfrac{n(n+1)}{2} \times 2 \\ &=& \sum_{i=1}^n R_i R'_i - \cfrac{n(n+1)^2}{4} \tag{6} \end{eqnarray}\]

ここで、

\[\begin{eqnarray} \sum_{i=1}^n (R_i - R'_i)^2 &=& \sum_{i=1}^n R_i^2 + \sum_{i=1}^n {R'_i}^2 - 2 \sum_{i=1}^n R_i R'_i \\ &=& \cfrac{n(n+1)(2n+1)}{6} \times 2 - 2 \sum_{i=1}^n R_i R'_i \end{eqnarray}\]

であるから、これを $\displaystyle \sum_{i=1}^n R_i R’_i$ について解いて $(6)$ に代入すると、

\[\begin{eqnarray} \sum_{i=1}^n (R_i - \bar{R}) (R'_i - \bar{R'}) &=& - \cfrac{1}{2} \sum_{i=1}^n (R_i - R'_i)^2 + \cfrac{n(n+1)(2n+1)}{6} - \cfrac{n(n+1)^2}{4} \\ &=& \cfrac{n^3-n}{12} - \cfrac{1}{2} \sum_{i=1}^n (R_i - R'_i)^2 \tag{7} \end{eqnarray}\]

$(5),(7)$ を $r_S$ の定義式に代入すると、

\[r_S = \cfrac{ \displaystyle \cfrac{n^3-n}{12} - \cfrac{1}{2} \sum_{i=1}^n (R_i - R'_i)^2 }{ \displaystyle \sqrt{ \cfrac{n^3-n}{12} } \sqrt{ \cfrac{n^3-n}{12} } } = 1 - \cfrac{6}{n^3-n} \sum_{i=1}^n (R_i - R'_i)^2\]

以上により、$(1)$ が示された。

性質

【定理】

2つの順位が完全に一致するとき、$r_S = 1$

【証明】

順位が完全に一致するので、

\[R'_i = R_i\]

よって、

\[r_S = 1 - \cfrac{6}{n^3-n} \sum_{i=1}^n 0^2 = 1\]

【定理】

2つの順位が完全に逆順であるとき、$r_S = -1$

【証明】

2つの順位が完全に逆順のとき、$(R_i, R’_i)$ が取り得る組み合わせは

\[(R_i, R'_i) = (1, n), (2, n-1), (3, n-2), \cdots, (n, 1)\]

よって

\[\begin{eqnarray} & R_i + R'_i = n + 1 \\ \Longrightarrow \ & R'_i = n + 1 - R_i \end{eqnarray}\]

これを $(1)$ に代入すると、

\[\begin{eqnarray} r_S &=& 1 - \cfrac{6}{n^3-n} \sum_{i=1}^n (2R_i - (n + 1))^2 \\ &=& 1 - \cfrac{6}{n^3-n} \left( 4 \sum_{i=1}^n R_i^2 + (n+1)^2 \sum_{i=1}^n 1 - 4(n+1) \sum_{i=1}^n R_i \right) \\ &=& 1 - \cfrac{6}{n^3-n} \left( 4 \cdot \cfrac{n(n+1)(2n+1)}{6} + (n+1)^2 \cdot n - 4(n+1) \cdot \cfrac{n(n+1)}{2} \right) \\ &=& 1 - \cfrac{6}{n^3-n} \cdot \cfrac{n^3-n}{3} \\ &=& -1 \end{eqnarray}\]

式変形の途中、$(2),(3)$ を用いた。

ケンドールの順位相関係数

定義

2つのデータ $d_i, d_j$ の全ての組み合わせ($i \ne j$、$_n \mathrm{C}_2$ 通り)について、

  • 正順:「$R_i \lt R_j$ かつ $R’_i \lt R’_j$」または「$R_i \gt R_j$ かつ $R’_i \gt R’_j$」
    • すなわち、2つの基準 $S, S’$ による順位の大小関係が同じ
  • 逆順:「$R_i \lt R_j$ かつ $R’_i \gt R’_j$」または「$R_i \lt R_j$ かつ $R’_i \gt R’_j$」
    • すなわち、2つの基準 $S, S’$ による順位の大小関係が逆

を調べる。

正順となる組の個数を $G$、逆順となる組の個数を $H$ として、

\[r_K := \cfrac{G-H}{_n \mathrm{C}_2} = \cfrac{G-H}{n(n-1)/2}\]

ケンドールの順位相関係数 という。

性質

【定理】

  • 2つの順位が完全に一致するとき、$r_K = 1$
  • 2つの順位が完全に逆順であるとき、$r_K = -1$

【証明】

  • 完全に一致するときは全ての $(i, j)$ の組($i \ne j$)が正順となるから、$G = {_n}\mathrm{C}_2, H = 0$
  • 完全に逆順であるとき全ての $(i, j)$ の組($i \ne j$)が逆順となるから、$G = 0, H = {_n}\mathrm{C}_2$

よって明らか。