Next: 導出されたルールの精度 Up: 実験結果 Previous: 実験環境 |
ルール導出まずは、ルール導出の手続きについて検討する実験を行った。 最初の実験は、(1)〜(4)を対象に
この実験では、混合区間や出現区間といった、曖昧な区間をルールとして導出し ないようにしている。 また、閾値は初期値を とし、 ずつ下げていった。 但し、4つの解析子をそれぞれ適用して解析する間に、1つでもルールが導出され た場合には、同じ閾値のままで繰り返し解析を行うようにした。 この実験の結果をまとめると表 5.2のようになる。
まず言えることは、ルールが冗長だということである。 各グループについて最適なルールが導出できる場合には、1つのグループを1つの ルールが説明できることになるため、導出されるルール数の最小値はグループ数 である。 そのため、対象としている文書集合が単純で明確な基準に基づいて分類されてい る場合には、導出されるルール数はグループとほぼ同じか、少し多いくらいにな るはずである。 特に (1) と (2) は明確に分類ルールが導出されるように故意に選んだ文書集合 であるのだが、導出されたルール数は、(2) ではグループ数の 倍にもなっ ている。 この理由の1つは、閾値の初期値を と小さくしすぎたためである。 そこで、 から ずつ小さくするようにすると、(1) は3ルール、(2) は8ルールと小さくなった。 もう1つの理由として、混合区間や出現区間を考慮していないことによって、区 間幅が小さすぎるルールが多量に導出されてしまったことが挙げられる。 つまり、図 4.5のようなケースでも3つの区間がルールとして導出 されてしまい、数が多くなってしまった。 次に実行時間を見ると、文書数の増加に伴い、およそ文書数の2乗に比例して時 間がかかっている。 これを改善するために、システムがルールを導出する様子を詳しく見てみた。 表 5.3は、(4)のルール導出をステップ毎に見たものである。 一見して、何もルールが導出できていない無駄なステップが多いことが分かる。 特に、解析子に file - や wc -c を用いた場合や、同じ閾値で2度 目、3度目の解析を行った場合に無駄が生じている。 file - や wc -c でルールが導出できないのは、対象が実際のメイ ルであるということから考えて当たり前だろう。 この2つの解析子は(1)と(2)からのルール導出をはかるべく導入したものである し、実際のメイルはそのような観点では分類していない。 一方、同じ閾値で繰り返した際には、2度目にはほとんどルールが導出できない、 ということから、ルール導出の成否によらず、閾値は下げていくべきという結論 になる。
以上のことを踏まえて、同じ文書集合に対し、 度目の実験を行った(実 験 )。 今度は
とした。 さらに、混合区間、出現区間についても考慮するようにした。 この結果は表 5.4の通りである。 実行時間と導出されたルール数が大幅に改善されていることが分かる。
また、(4)のルール導出をステップ毎に見ると、表 5.5のようにな る。 各ステップ毎にほとんど無駄なくルールが導出された。 尚、ステップ11以降は .mh_sequences 等の本質的でないファイルが残っ ているだけであるので、実質ステップ10(閾値40%)で解析は終了していると見る べきである。
ところで、(3), (4) のように文書数が多くなってくると、閾値がだいぶ低い値 にならないとルールが導出できなくなってくる。 特にグループ内の文書数が多い場合に、この傾向が強く見られる。 それは、文書数が多いグループは分類の観点が複合的で、単純に1つのルールで は分類が説明できないためであると考えられる。 複数の観点から成るグループは、それぞれのルールの被覆率が下がってしまい、 閾値が高いと導出されない。 そこで、そのグループがいくつのルールで説明できるかによって、閾値を下げる ことにする。 もし3つのルールから成るのであれば、各ルールの被覆率は平均 に なるため、閾値を に下げれば良い。 そのため、グループ内の文書数と導出されるルール数の関係を実験で調べた(実 験 )。 (4) のうちの 10% の文書を対象に、
の3式の曲線も描かれている。 これらの式は、文書数が100の時にルール数が6になるように係数を揃えて ある。 このグラフより、補正閾値を
と定めることにした。
|
吉田 誠一のホームページ に戻る。 Copyright(C) Seiichi Yoshida (comet@aerith.net). All rights reserved. Sat Mar 8 05:59:11 JST 1997 |