ROC 曲線とは

受信者操作特性(Receiver Operating Characteristic)の略。
縦軸に 真陽性率(True Positive Rate)、横軸に 偽陽性率(False Positive Rate) を取り、モデルの性能を評価する際に用いられる。

問題設定

与えられたデータサンプルに対する事象の真/偽を判定する二値分類問題を考える。
この問題に対するモデルは内部に評価関数を持ち、評価関数の値が閾値 \(T\) 以上なら真、\(T\) 未満なら偽と判定する。

ROC 曲線

モデルの評価関数の閾値 \(T\) を色々変えながら、\(N\) 件のテストデータを使って以下の操作を繰り返す。

  1. テストデータに対する真偽を判定
  2. 判定結果と正解を比べて真陽性率と偽陽性率を計算
  3. (真陽性率, 偽陽性率) をグラフにプロット

ROC

ROC-AUC

性能を評価する数値として、ROC 曲線の下側の面積である AUC(Area Under the Curve)が用いられることが多い。

  • ROC-AUC が大きい = 少ない誤りで真だと判定できている = 性能が良い
  • ROC-AUC = 0.5 は完全にランダムなモデルに相当