---------------------------------------------------------------------

next up previous contents
Next: ルール導出 Up: 実験結果 Previous: 実験結果

---------------------------------------------------------------------

実験環境

本研究の実験は、

  • FM-Towns II MX (i486-DX2)
  • メモリ 28MB + スワップ 21MB
  • Linux 1.3.84
  • GNU C++ Compiler 2.7.2
を用いて行った。

対象となる文書集合としては、表 5.1の6つの規模のサンプル集合 を用意して、実験を行った。

   table402
表 5.1: サンプル文書集合

実験1 〜 3 は、4章で述べた実装の方法を検討した試験 的なものである。 実験1 , 2 では、全ての解析子を適用してもルール導出が終了しなかった 場合の閾値の下げ方について、ルール導出の成否によらず閾値は下げていくべき という結論を得た。 実験3 では、グループ内の文書数が多い場合にもルールが導出されるように するための補正閾値を定めた。

実験4 〜 6 では、文書集合の一部を用いてルールを導出し、そのルー ルを全文書に適用して正答率を測定して、どの程度の精度で分類の自動化が図れ るのかを調べた。 実験4 では、文書集合と解析子を固定して、全文書に対するルール導出に用 いる文書数の割合 p を変えて、正答率 tex2html_wrap_inline1576 の変化を調べた。 その結果、ptex2html_wrap_inline1580 の間に、 tex2html_wrap1572 の関係が成り立っていることを示した。 実験5 では、メイルに対して解析子を1つずつ用いてルールを導出し、メイ ルに適したアトムの形式について調査した。 その結果、メイルのヘッダ部をアトムとして切り出せるものが良い正答率になる ことが分かった。 実験6 では、同一の解析子を用いて、異なる文書集合から同じ割合の文書を 利用してルールを導出し、対象文書集合の規模による正答率の傾向を調べた。 またこの実験の中で、アトムとして空白や改行で区切られる文字列を用いた結果、 実際のメイルの10% を用いて導出したルールを全体に適用して、70% の確率で 正しく分類できるという結果を得た。

---------------------------------------------------------------------

吉田 誠一のホームページ に戻る。
Copyright(C) Seiichi Yoshida (comet@aerith.net). All rights reserved.
Sat Mar 8 05:59:11 JST 1997