平成17年度卒業 |
1. データマイニング
データマイニングとは、大量のデータの中から隠された知識や新し い規則を発見するプロセスです。
例えば、スーパーマーケットの売上げデータが与えられたとすると、「ビデオテー プを買う人はガムテープを買う」などといった規則を見つけ出します。
当研究室では高速にデータマイニングを行う手法として、 MAPIXが提案されました。しかし、実データに 対しての実験は行われていません。
そこで本研究では、MAPIXの実データに対する応用実験、また、そのための問題 として英文を提案しました。
2. 英文データ
英文にはペンシルバニア大学のPenn Treebank Projectによってタグ付けされた 構文木を使用しました。構文木には英文の構造を表す「構文タグ」と各単語の品詞を 表す「品詞タグ」が付けられています。次に、構文木の例を示します。
上図はこの英文がなどと言った事を表しています。
- NP(名詞句)を持ち、その中にJapanというNP(固有名詞)を持つ
- VP(動詞句)を持ち、その中にPP(前置詞句)を持ち、その中にasというIN(前置詞)を持つ
3. 結果
次のような結果がでた
- 英文中の前置詞句の中に、前置詞と名詞がよく出る
- 英文が重文になっており、その中に名詞と動詞の過去形がよく出る
以上のように当り前といわれれば当り前な結果が多く出て、あまり意外な結果は でなかった。
また、実験を通して、MAPIXが英文のような複雑で多様なデータに対しても有効 な手法であることを確認した。