Technical Notes ▼
- IDE ▼
  - IntelliJ
- PhysicalSimulation ▼
  - mechanics ▼
    - 質点の運動
- DataMining ▼
  - 時系列データ分析 ▼
  - geolocation ▼
    - GeoJSON
- Network ▼
  - ssl-server-certificate ▼
    - CSR
    - ルート証明書
  - ネットワーク用語
- Management ▼
- Others ▼
  - Software ▼
    - Slack
  - Jekyll
  - Tex 数式
- Principle ▼
  - ソフトウェアテストの7原則
- Language ▼
  - HTML-CSS ▼
    - HTML / CSS 逆引き
  - Python ▼
    - Library ▼
      - SciPy
      - pickle
      - mecab-python3
      - PyAudio
      - matplotlib-venn
      - geopandas.md
      - statsmodels
      - datetime
      - matplotlib
      - streamlit.md
      - Fabric
      - Pillow
      - pandas
      - graphviz
      - numpy
      - jinja2
      - qdm
      - Flask
    - "[Python] スクレイピング"
  - Assembly ▼
    - レジスタ
  - Java ▼
    - JMX
    - Library ▼
      - JUnit
      - Selenium
      - Mockito
      - Quartz
      - Jersey
      - Jackson
      - Log4J
      - HttpClient
    - Java 実行時オプション
    - Java 修飾子
  - Scala ▼
  - JavaScript ▼
- Algorithm ▼
  - recommendation ▼
    - 行列分解
    - Factorization Machine
  - 線形計画法
  - equation ▼
    - 二分法
    - ニュートン法
  - sort ▼
  - data-structure ▼
    - ブルームフィルタ
  - graph ▼
  - 高速フーリエ変換（FFT）
  - differential-equation ▼
    - partial-differential-equation ▼
    - オイラー法
  - information-retrieval ▼
    - 転置インデックス
  - string ▼
    - Suffix Array
  - 最小二乗法
- Math ▼
  - 統計学 ▼
    - time-series ▼
    - 大数の法則
    - 尖度
    - ローレンツ曲線
    - モーメント母関数（積率母関数）
    - correlation ▼
    - チェビシェフの不等式
    - 順序統計量
    - distribution ▼
    - Q-Q プロット
    - 同時確率分布
    - 中心極限定理
    - estimation ▼
    - 歪度
    - 統計学の公式
    - regression-analysis ▼
      - 線形回帰
    - 独立な確率変数の和
    - hypothesis-testing ▼
    - 分散共分散行列
  - graph ▼
    - ラプラシアン行列
  - formula ▼
    - スターリングの公式
  - special-functions ▼
  - calculus ▼
    - ラグランジュの未定乗数法
    - ロピタルの定理
    - complex-analysis ▼
    - フーリエ変換
    - vector-calculus ▼
    - テイラー展開
    - 畳み込み積分
    - 微分積分の公式
    - differential-equation ▼
      - boundary-condition ▼
        
        ノイマン境界条件
        
        ディリクレ境界条件
      - special-equation ▼
        
        ポアソン方程式
        
        波動方程式
        
        拡散方程式
  - matrix ▼
    - 特異値分解
    - 次元定理
    - 固有値と固有ベクトル
    - 行列の階数
    - 逆行列
    - 広義の固有ベクトル
    - 行列式
    - 直交変換
    - 行列の対角化
    - special-matrix ▼
    - 行列のトレース
    - ジョルダン標準形
- Standard ▼
  - Swagger
- ML ▼
  - k-means
  - 最適化アルゴリズム
  - ロジスティック回帰
  - 正則化
  - k 近傍法
  - Preprocess ▼
  - 決定木
  - DBSCAN
  - サポートベクトルマシン
  - ensemble-learning ▼
  - gbdt ▼
  - ADALINE
  - RANSAC
  - パーセプトロン
  - Evaluation ▼
  - AdaBoost
  - 多層パーセプトロン
  - 凝集型クラスタリング
  - reinforcement-learning ▼
- Linux ▼
  - System ▼
    - サーバのボトルネック調査
  - Command ▼
    - ast
    - nice
    - nslookup
    - screen
- Reading-Notes ▼
- OSS ▼
  - JMeter
  - Prometheus
  - Hive
  - InfluxDB
  - Gatling
  - Solr ▼
    - apache-solr-introduction ▼
    - トラブルシューティング
  - Trino (Presto)
  - Hadoop ▼
    - HDFS
    - HttpFS
  - Cassandra
  - Grafana
  - fluentd
  - Spark ▼
- NLP ▼
  - 文字列の類似度
  - TF-IDF
  - morphological-analysis ▼
    - MeCab
  - Word2Vec
- Tool ▼

AdaBoost とは

= Adaptive Boosting

アンサンブル学習のブースティングの1手法。

問題設定

入力値（特徴量） \(x_1, \cdots, x_m\) に対し、分類ラベル \(y\) を出力するモデルを作る。

学習の手順

決定株など、ランダムよりは少し良い程度の弱分類器を使い、以下の操作を行う。

\(N\) 個の訓練データサンプルの重み \(\boldsymbol{w} = (w^{(1)}, \cdots, w^{(N)})\) を同じ値（\(1/N\)）で初期化
以下の3〜5を \(M\) 回繰り返し、\(M\) 個の弱分類器を得る
重みの大きなデータサンプルを優先的に見ながら、弱分類機をトレーニング
- 重み付き誤分類率 \(\varepsilon = \displaystyle \sum_{\hat{y}^{(i)} \neq y^{(i)}}^N w^{(i)}\) が最小となるように学習
- ここで \(\hat{y}^{(i)}\) は予測ラベル、\(y^{(i)}\) は正解ラベル
誤分類されたデータの重みを増やし、正しく分類されたデータの重みを減らす
- \(\alpha = 0.5 \log{\cfrac{1-\varepsilon}{\varepsilon}}\) を用いて下式で重みを更新
  - \(\hat{y}^{(i)} = y^{(i)}\) のとき：\(w^{(i)} \longleftarrow w^{(i)} e^{-\alpha}\)
  - \(\hat{y}^{(i)} \neq y^{(i)}\) のとき：\(w^{(i)} \longleftarrow w^{(i)} e^{\alpha}\)
重みを合計が1になるように正規化

ラベル判別の手順

それぞれの弱分類器の \(\alpha\) の値 \(\alpha_j\ (j = 1, \cdots, M)\) を重みとして、重み付き多数決でラベルを予測する。
2つのラベルを1, -1としておけば、最終的な予測ラベル \(\hat{y}\) は

\[\hat{y} = \begin{cases} 1 &{\rm if}& \displaystyle \sum_{j=1}^M \alpha_j \hat{y}_j \ge 0 \\ -1 &{\rm if}& \displaystyle \sum_{j=1}^M \alpha_j \hat{y}_j \lt 0 \end{cases}\]

で求められる。

実装

コード

弱分類器（決定株）：

AdaBoost：

動作確認

個別の決定株：

Decision Stumps

AdaBoost：

AdaBoost