|
Next: 考察 Up: 実験結果 Previous: ルール導出 |
導出されたルールの精度次に、導出されたルールを用いて、新たに追加された文書が同じ分類法に基づい て正しく分類されるかどうかを確かめて、ルールの精度について検討する。 実験に際しては逆の発想をして、サンプル文書集合の一部を用いてルールを導出 し、それを全文書に適用して、正しく分類できるかどうかを確かめた。 まずは、ルール導出に用いた文書集合中の文書数の割合と、それを全文書に適用 した時の正答率との関係を調べておく。 実験は (4) を対象に、
表 5.6の結果から、全文書に対するルール導出に用いた文書数の割
合 p と、その結果導出されたルールを全文書に適用した場合の正答率 を満たしていることが分かる。 例えば、
となり、ほぼ一致する。 実際に 8% の文書からルールを導出して正答率を調べると、 であった。 次に、メイルの分類に適しているアトムの形式を見定めるために、
この結果、./atom 5 〜 ./atom 1 には大差がなく、./atom 0 (1文字ずつ頻度解析) の場合は他に比べてルールの正答率が劣っていること が分かった。 メイルの場合、あるメーリングリストのメイルは同じグループにまとめておくこ とが多い。 その場合、ヘッダ部の To: や Subject: の文字列がそのままルー ルとして成り立つため、それらをアトムとして抽出する ./atom 3 や、そ の部分文字列をアトムとする ./atom 5, ./atom 2 〜 ./atom 1 が高い正答率になることは頷ける。 しかし対象によっては、日本語文字の区別を行っている ./atom 5 と、行っ ていない ./atom 3 〜 ./atom 1 の間に差が出ることもある。 例えば、メイルのヘッダ部を削除して本文だけとした (6) の 10% (508個)の文 書を対象として実験すると、./atom 3 では 50% だが、./atom 5 では 65% の正答率になる(表 5.8)。 尚、こちらは混合区間、出現区間も考慮している。
最後に、同じ割合の部分集合からルールを導出した場合の、対象文書集合の規模
による正答率の傾向を調べた(実験
(5)、つまり全メイルを対象とした場合、たった10%の部分集合から導出したルー ルで70%もの正答率が出た。 これについて、各グループごとに正誤数をまとめたものが表 5.10 である。 正答率の良い順に並べてある。
|
|
吉田 誠一のホームページ に戻る。 Copyright(C) Seiichi Yoshida (comet@aerith.net). All rights reserved. Sat Mar 8 05:59:11 JST 1997 |