DBSCAN とは

クラスタリングの手法の1つ。
Density-Based Spacial Clustering of Applications with Noise.

手順

ハイパーパラメータ \(\varepsilon, n_{\rm min-pts}\)

  1. 以下のルールに従って全データ点をラベル付けする
    • コア点(Core Point):自身から距離 \(\varepsilon\) 以内に他のデータ点が \(n_{\rm min-pts}\) 個以上存在する
    • ボーダー点(Border Point):コア点の条件は満たさないが、自身から距離 \(\varepsilon\) 以内にコア点が1つ以上存在する
    • ノイズ点(Noise Point):コア点・ボーダー点いずれの条件も満たさない
  2. コア点同士の距離が \(\varepsilon\) 以内である場合、それらのコア点を接続する
  3. 接続されたコア点とそれらから距離 \(\varepsilon\) 以内のボーダー点の集合を1つのクラスタとする
    • ノイズ点はどのクラスタにも含めない

DBSCAN イメージ

実装

コード

動作確認

DBSCAN