関係的知識発見手法を用いた英文からの特徴の抽出

平成17年度卒業
浦澤真平
関係的知識発見手法を用いた英文からの特徴の抽出

1.　データマイニング

データマイニングとは、大量のデータの中から隠された知識や新しい規則を発見するプロセスです。
例えば、スーパーマーケットの売上げデータが与えられたとすると、「ビデオテープを買う人はガムテープを買う」などといった規則を見つけ出します。
当研究室では高速にデータマイニングを行う手法として、 MAPIXが提案されました。しかし、実データに対しての実験は行われていません。
そこで本研究では、MAPIXの実データに対する応用実験、また、そのための問題として英文を提案しました。

2.　英文データ

英文にはペンシルバニア大学のPenn Treebank Projectによってタグ付けされた構文木を使用しました。構文木には英文の構造を表す「構文タグ」と各単語の品詞を表す「品詞タグ」が付けられています。次に、構文木の例を示します。

上図はこの英文が

NP(名詞句)を持ち、その中にJapanというNP(固有名詞)を持つ
VP(動詞句)を持ち、その中にPP(前置詞句)を持ち、その中にasというIN(前置詞)を持つ
などと言った事を表しています。

3.　結果

次のような結果がでた

英文中の前置詞句の中に、前置詞と名詞がよく出る
英文が重文になっており、その中に名詞と動詞の過去形がよく出る

以上のように当り前といわれれば当り前な結果が多く出て、あまり意外な結果はでなかった。

また、実験を通して、MAPIXが英文のような複雑で多様なデータに対しても有効な手法であることを確認した。