平成19年度卒業 |
1. はじめに
データマイニングとは、大量のデータから隠された知識や新しい規則を発見するプロセスです。
データマイニングを行う枠組みとして注目されているものの一つに帰納論理プログラミング(Inductive Logic Programming : ILP)があります。これは述語論理を使用することで豊かな表現力を持ち、可読性の高い解析が行うことができます。
ILPの枠組みにおけるデータマイニングでは多くの手法が提案されてきました。その中の一つとして当研究室で開発されたEQUIVPIXがあります。 本研究ではEQUIVPIXを改良することで、より多くのルールを効率的に計算することを目標とします。
2. 提案手法
EQUIVPIXの説明で述べられていた、「事例の部分的な論理構造を連現に持つパターン」を次の図で示す順序で探索することによって効率よく探索する
3. 結果
EQUIVPIXと提案手法の実行時間と導出したルールの数を次の表にまとめる。
実行時間(s) 導出ルール数 EQUIVPIX 44.3 599 提案手法 146.1 752
導出できるルールは増えたものの、導出時間もかなり増大してしまった。
また、この表には表していないものの、セッティングによっては4時間以上かかってしまうケースも見られた 4. まとめ
本研究ではデータマイニングに注目し、帰納推論と論理プログラミングを結合した強力なアプローチであるILPを使用することで、データマイニングに重要な可読性の高い知識を得るEQUIVPIXという手法を改良し、より多彩なルールを枚挙することに成功したが、一方では処理時間の増大という問題を抱えてしまった。
また、このままではルール数も多すぎて、マイニング結果を有効に活用できないということも十分に考えられるので、必要のないルールを間引いていくことも考える必要があると思います。