平成15年度卒業 |
1.データマイニング
データマイニングとは、大規模なデータベースからあるパターンやルールを発見するプロセスである。 データの規模や複雑性が大きくなることによって、人間にとって分かりやすいく有用な知識を見つけ出すことが重要である。 本研究では表現力が豊かな一階述語論理を用いて、時間系列のデータから知識を見つけ出す方法を検討した。2.ILPとは
ILP(Inductive Logic Programming:帰納論理プログラミング)は、一階述語論理の枠組みで帰納学習を行う枠組みのことである。 帰納学習の目的はあるクラスのみに共通して見られ、他のクラスには見られない、文字列で表現された、ある種のパターンを発見することであり、ILPの枠組みではこのパターンを十分強力な表力をもつ一階述語論理の形式で見つけ出す。
われわれ人間と同様、さまざまなパターンを考え、それが正しいかどうかを確認する作業を繰り返しながら、最終的にもっとも妥当であるとおもわれるパターンを見つける。 基本的にはILPもわれわれ人間が自然におこなっている試行錯誤によるパターンの発見を、論理の枠組みで効率よくおこなっているのである。ILPは論理表現を用いるだけでなく背景知識を用いることができ、つぎの利点をもつ。
- 既に分かっている知識を背景知識に用いることで仮説生成に利用できる。
- 理解しやすい知識を与えることで、仮説も理解しやすくなる。
- 背景知識集合が仮説の探索空間をきめることになるため、探索の制御に利用できる
3.ILPを用いたデータマイニング
帰納学習を目的としたILPが、尤もらしい仮説をひとつ求めるればよいのに対して、データマイニングでは事例から観測されるパターンを網羅的に見つけることが必要である。 なぜならば、これらのパターンのどれが実際にユーザにとって有用であるかは分からないからである。 この観点でILPを用いたデータマイニングの手続きを示す。この手続きは、背景知識をコントロールすることで仮説空間を変化させてパターンを網羅する。
- Given B:背景知識, EX+:正事例集合, EX-:負事例集合
- R := 空
- Repeat
- B' ⊆ B を適当に選択
- B', EX+, EX-に対してILPを用いて仮説(節集合)H を導出
- R := R ∪ H
- EndRepeat
- R から正事例集合 EX+ に対する評価の高いルール集合 R' を選択
- Return R'
5.医療データの解析
本研究はこれらの方法を時系列の医療データからの知識発見に適用した。 本研究で扱った医療データは、患者の検査データであり、検査の度に得られるデータを時系列でまとめたものである。 これには次のような特徴がある。これらに対処するため、時間的前後関係を記述する関係、時間を通した性質に関する知識、欠損値を補う知識などを背景知識に加えた。 ILPの枠組みを用いることでこれらの知識を自然に記述することが可能であった。 また上記のマイニング手続きによって複数の有意味な知識を導出するできることが確認された。
- 患者が検査をおこなうごとにデータは増加する。
- データは一定間隔ではない。
- 毎回すべての検査をしておらず、データは欠損している。
参考文献
R.Ichise,M.Numao : Relational Mining for Temporal Medical Data, Proceedings of the LASTED International Contence in Intarmation and Knowledge Sharing,2003.古川康一、尾崎知伸、植野研:帰納論理プログラミング、共立出版、2001
S.Muggleton:Inverse entailment and progol, New Generation Computing, Vol.13, 1995.