Technical Notes ▼
- IDE ▼
  - IntelliJ
- PhysicalSimulation ▼
  - mechanics ▼
    - 質点の運動
- DataMining ▼
  - 時系列データ分析 ▼
  - geolocation ▼
    - GeoJSON
- Network ▼
  - ssl-server-certificate ▼
    - CSR
    - ルート証明書
  - ネットワーク用語
- Management ▼
- Others ▼
  - Software ▼
    - Slack
  - Jekyll
  - Tex 数式
- Principle ▼
  - ソフトウェアテストの7原則
- Language ▼
  - Python ▼
    - Library ▼
      - SciPy
      - pickle
      - mecab-python3
      - PyAudio
      - matplotlib-venn
      - geopandas.md
      - statsmodels
      - datetime
      - matplotlib
      - streamlit.md
      - Fabric
      - Pillow
      - pandas
      - graphviz
      - numpy
      - jinja2
      - qdm
      - Flask
    - "[Python] スクレイピング"
  - Assembly ▼
    - レジスタ
  - Java ▼
    - JMX
    - Library ▼
      - JUnit
      - Selenium
      - Mockito
      - Quartz
      - Jersey
      - Jackson
      - Log4J
      - HttpClient
    - Java 実行時オプション
    - Java 修飾子
  - Scala ▼
  - JavaScript ▼
    - jQuery
    - Chart.js
    - Vue.js
- Algorithm ▼
  - recommendation ▼
    - 行列分解
    - Factorization Machine
  - 線形計画法
  - equation ▼
    - 二分法
    - ニュートン法
  - sort ▼
  - data-structure ▼
    - ブルームフィルタ
  - graph ▼
  - 高速フーリエ変換（FFT）
  - differential-equation ▼
    - partial-differential-equation ▼
    - オイラー法
  - information-retrieval ▼
    - 転置インデックス
  - string ▼
    - Suffix Array
  - 最小二乗法
- Math ▼
  - 統計学 ▼
    - time-series ▼
    - 大数の法則
    - 尖度
    - ローレンツ曲線
    - モーメント母関数（積率母関数）
    - correlation ▼
    - チェビシェフの不等式
    - 順序統計量
    - distribution ▼
    - Q-Q プロット
    - 同時確率分布
    - 中心極限定理
    - estimation ▼
    - 歪度
    - 統計学の公式
    - regression-analysis ▼
      - 線形回帰
    - 独立な確率変数の和
    - hypothesis-testing ▼
    - 分散共分散行列
  - graph ▼
    - ラプラシアン行列
  - formula ▼
    - スターリングの公式
  - special-functions ▼
  - calculus ▼
    - ラグランジュの未定乗数法
    - ロピタルの定理
    - complex-analysis ▼
    - フーリエ変換
    - vector-calculus ▼
    - テイラー展開
    - 畳み込み積分
    - 微分積分の公式
    - differential-equation ▼
      - boundary-condition ▼
        
        ノイマン境界条件
        
        ディリクレ境界条件
      - special-equation ▼
        
        ポアソン方程式
        
        波動方程式
        
        拡散方程式
  - matrix ▼
    - 特異値分解
    - 次元定理
    - 固有値と固有ベクトル
    - 行列の階数
    - 逆行列
    - 広義の固有ベクトル
    - 行列式
    - 直交変換
    - 行列の対角化
    - special-matrix ▼
    - 行列のトレース
    - ジョルダン標準形
- Standard ▼
  - Swagger
- ML ▼
  - k-means
  - 最適化アルゴリズム
  - ロジスティック回帰
  - 正則化
  - k 近傍法
  - Preprocess ▼
  - 決定木
  - DBSCAN
  - サポートベクトルマシン
  - ensemble-learning ▼
  - gbdt ▼
  - ADALINE
  - RANSAC
  - パーセプトロン
  - Evaluation ▼
  - AdaBoost
  - 多層パーセプトロン
  - 凝集型クラスタリング
  - reinforcement-learning ▼
- Linux ▼
  - System ▼
    - サーバのボトルネック調査
  - Command ▼
    - ast
    - nice
    - nslookup
    - screen
- Reading-Notes ▼
- OSS ▼
  - JMeter
  - Prometheus
  - Hive
  - InfluxDB
  - Gatling
  - Solr ▼
    - apache-solr-introduction ▼
    - トラブルシューティング
  - Trino (Presto)
  - Hadoop ▼
    - HDFS
    - HttpFS
  - Cassandra
  - Grafana
  - fluentd
  - Spark ▼
- NLP ▼
  - 文字列の類似度
  - TF-IDF
  - morphological-analysis ▼
    - MeCab
  - Word2Vec
- Tool ▼

概要

Piecewise Aggregate Approximation (PAA) は、時系列データを次元圧縮する手法の1つ。

手法

長さ $N$ の時系列 $R={r_1, r_2, \cdots, r_N}$ の次元数を $N \to M\ (M \lt N)$ に圧縮することを考える。
時系列の全区間（$t=1,2,\cdots,N$）を $M$ 個の区間に等分割し、この各区間でデータ点の平均値を取り、それを区間の代表値とする。

実装・動作確認

import matplotlib.pyplot as plt
import numpy as np

def paa(t, r, m):
    """
    Piecewise Aggregate Approximation により次元削減
    t : 時刻の配列
    r : 時刻 t に対応する時系列データ
    m : 削減後の次元
    """
    n = len(r)   # 削減前の次元
    if n <= m:
        raise ValueError('m should be smaller than len(r)')
    # dt を極微小な値だけ大きくすることで int(max(t)/dt) が
    # list index out of range を引き起こすのを防ぐ
    dt = (max(t)-min(t)) / m * (1.0+1e-10)
    cnt = np.zeros(m)
    acc = np.zeros(m)
    for i in range(n):
        k = int(t[i]//dt)
        cnt[k] += 1
        acc[k] += r[i]
    r_new = acc / cnt
    t_new = (np.arange(m)+0.5)*dt + min(t)
    return t_new, r_new


N = 100
M = 20
t = np.linspace(0, np.pi*4, N)
r = np.sin(t) + np.random.rand(N)*0.4-0.2
t_new, r_new = paa(t, r, M)

plt.plot(t, r, label='$R$')
plt.scatter(t, r)
plt.plot(t_new, r_new, label='$R\'$')
plt.scatter(t_new, r_new)
for x in (t_new[1:]+t_new[:-1])/2:
    plt.axvline(x, 0, 1.0, lw=1.0, color='black', linestyle='dashed')

plt.legend()
plt.show()

paa