系列データ(Sequence Data)
1. 一般的系列データ†
系列データとは、時間や空間上で連続して観測された値の列のこと。隣接する値が相関する構造を持つことが特徴。
例えば、物体の輪郭が空間上で隣接する観測値(輪郭上各点の観測角度等)からなる系列で表すことができる。
(参考:sktime[9])
系列データ(sequence data)は以下のように分類できる
- simple symbolic sequence
アルファベットなどの記号を単純に並べたもの。DNA seqenceが代表例。
A symbolic sequence consists of an ordered set of elements or events, recorded with or without a concrete notion of time.
- complex symbolic sequence
順序のあるベクトルのリスト。ベクトルの各要素は商品の名称などになる。
- simple time series
時刻と値の組。間欠的に起こる現象の記録に有利。
A simple time series is a sequence of numeric values obtained over repeated measurements of time. The values are typically measured at equal time intervals (e.g., every minute, hour, or day).
- multivariate time series
時刻とベクトルの組simple time seriesのベクトル版
- complex event sequence
さらに複雑なデータ構造
2. データマイニング分野における系列データ†
- 系列データ (sequential data)とは、同質のデータを直列に並べたデータをさし,DNA系列や,文字列などがある.さらに,データマイニング分野では以下のようなバスケットデータの系列データもある。例えば、<(a)(abc)(ac)(d)(cf)>, 最初の取引では商品aのみを,次の取引ではa,b,およびcを購入したことを表す.
- 系列パターン (sequential pattern) のマイニングとは、 支持度が最小支持度以上の極大な系列を全て列挙すること
3. Python ライブラリ†
- sktime
時系列の機械学習タスクに対応するライブラリ。sklearn互換のインターフェースとモデル構成ツールを提供する
- seglearn
時系列データのセグメンテーションから特徴抽出、学習までのパイプライン化が柔軟かつ簡単に実現できるsklearnの拡張機能
9. 参考資料†
- 朱鷺の杜Wiki:系列データ
- 時系列データ解析 - 東京大学 数理・情報教育研究センター
- 時系列データから脳の情報処理メカニズムに迫る(小林 亮太 国立情報学研究所)
- 最適輸送理論(OT: optimal transport theory)
- Computational Optimal Transport (Gabriel Peyré)
- POT: Python Optimal Transport
- LSTMによる系列データの予測と分類(MathWorks日本)
- ディープラーニングによる時系列分類(Marco Del Pra)(English)
- Keras 2: 時系列 – ゼロからの時系列分類
- Converting images into time series for data mining
- (Shaplets) Shapelets and the Shapelet Transform with sktim
- 深層学習を用いた時系列データの要約と分類(DEIM 2018)
- 時間変化するshapeletsを学習する時系列分類手法(DEIM 2022)
- A Brief Survey on Sequence Classification (SIGKDD Explorations, v12.n.1)
- 361,261 Results for: All: sequence classification (ACM Digital Library,2022.6.24)
- 40 public repositories (github search results) for sequence-classification
- Sequence Classification with LSTM Recurrent Neural Networks in Python with Keras
- Learning Meta-Distance for Sequences by Learning a Ground Metric via Virtual Sequence Regression (TPAML 2019) Code
- Direct Antimicrobial Resistance Prediction from clinical MALDI-TOF mass spectra using Machine Learning (bioRxiv 2020) Code