平成15年度卒業

柴田 智幸
時空間データを対象とする基準例分割による分類学習


時系列決定木

内部ノードに基準となる属性時系列を持つ決定木で、基準例分割テストによって例集合を分割していきます。分割の選択基準として利得比基準を選択しています。

・基準例分割テスト
基準例分割テストをσ(ex,a,θ)と表現する。ここでexは一つの事例であり基準例と呼びます。aは属性、θは閾値です。事例exの属性aに関する時系列データをex(a)で表すとすると基準例分割は、事例集合{ex1,ex2,...,exn}を、S(ex(a),exi(a))<θを満たす事例eiから構成される事例集合E1(ex,a,θ)とそれ以外の事例集合E2(ex,a,θ)に分けます。ここでSというのは、動的時間伸縮法(DTW)に基づいた距離です。

・動的時間伸縮法(DTW)
時系列データのペアに関する相違度計算法です。時系列データにおける一点のデータをもう片方の時系列データにおける複数点のデータに対応づけられるため、時間方向の非線形な伸縮を許容できます。このため、計測値数が異なる時系列データのペアに適応できる上に結果がより人間の直観に合致します。


時空間データを対象とする手法

各次元ごとで一つのデータとして扱われている時系列データを、一つの多次元空間における時系列データとして扱ったものを本研究では時空間データと呼びます。

1.時空間データにおける基準例分割テスト
時空間データを一つの属性として基準例分割テストを行ないます。この属性の相違度の算出は、各時間毎に示す各次元の値を用い、各次元毎でユークリッド距離を求めてその距離の合計を相違度とします。

2.非時系列のデータを複合するデータにおける基準例分割テスト
非時系列とは、一つの実数値を持つ数値属性のデータです。先の時空間データを加えた上ににさらに非時系列データを属性として加えて基準例分割テストを行ないます。非時系列データの相違度の算出は、非時系列属性における互いの値の差の絶対値によって算出されます。また最良の基準例分割テストを求めるときは、まず時系列属性の中で最大の利得比を求め、その後比時系列属性の中で最大の利得比を求めます。求めた両属性のうち大きい方の属性を基準として選択します。

3.データクレンジング
データの前処理として、異なる二点の間の値を求める線形補間を行ないます。


まとめ

時空間データを対象とする手法を用いることで、時系列データのみを対象とした時系列決定木より、決定木のサイズを小さくし可読性を向上させることができます。また、 時空間データを対象に含むことによって時系列データのみを対象とした時系列決定木より、より系列データの形を考慮した分類モデルの生成を行なうことが可能であり、新しい知識の発見に貢献できると期待されます。

今後の課題はたくさんあるのですが、さらに可読性を高めるために、導出した決定木の内部ノード(特に時空間データで三次元以上の空間の場合)の表現の方法が大きな課題だと思います。



参考文献:山田悠、鈴木英之進、横井英人、高林克日己 「時系列決定木による分類学習」