欠損値

アンケートの空欄やデータ測定のミスなど、現実のデータには 欠損値 が含まれることが多い。

サンプル番号 特徴量1 特徴量2 特徴量3 特徴量4
1 0.1 1 10 100
2 0.2 2 20 200
3 0.3 3 30 NaN
4 0.4 NaN 40 400
5 0.5 5 50 500

欠損値を取り除く

失うデータが大きすぎて解析の信頼性に影響が出るリスクがある。

欠損値を含むサンプルを取り除く

サンプル番号 特徴量1 特徴量2 特徴量3 特徴量4
1 0.1 1 10 100
2 0.2 2 20 200
5 0.5 5 50 500

欠損値を含む特徴量を取り除く

サンプル番号 特徴量1 特徴量3
1 0.1 10
2 0.2 20
3 0.3 30
4 0.4 40
5 0.5 50

欠損値を補完する

平均値代入法

欠損のないサンプルで平均値を取る。
バイアスがかかるため推奨されない。

サンプル番号 特徴量1 特徴量2 特徴量3 特徴量4
1 0.1 1 10 100
2 0.2 2 20 200
3 0.3 3 30 300
4 0.4 2.75 40 400
5 0.5 5 50 500

多重代入法

(TODO)