平成17年度卒業

浦澤 真平
関係的知識発見手法を用いた英文からの特徴の抽出



1. データマイニング

データマイニングとは、大量のデータの中から隠された知識や新し い規則を発見するプロセスです。
例えば、スーパーマーケットの売上げデータが与えられたとすると、「ビデオテー プを買う人はガムテープを買う」などといった規則を見つけ出します。
当研究室では高速にデータマイニングを行う手法として、 MAPIXが提案されました。しかし、実データに 対しての実験は行われていません。
そこで本研究では、MAPIXの実データに対する応用実験、また、そのための問題 として英文を提案しました。


2. 英文データ

英文にはペンシルバニア大学のPenn Treebank Projectによってタグ付けされた 構文木を使用しました。構文木には英文の構造を表す「構文タグ」と各単語の品詞を 表す「品詞タグ」が付けられています。次に、構文木の例を示します。


上図はこの英文が などと言った事を表しています。


3. 結果

次のような結果がでた
以上のように当り前といわれれば当り前な結果が多く出て、あまり意外な結果は でなかった。

また、実験を通して、MAPIXが英文のような複雑で多様なデータに対しても有効 な手法であることを確認した。