![]() ![]() ![]() ![]() Next: 計算量の削減 Up: システムの実装 Previous: 術語の実装 |
ルールの評価
前章では、あるグループに対して、正集合(そのグループに所属する文書の集合)
のある部分集合 という分布(1)に対しても、また
という分布(2)に対しても、
直観的に見て、(2)のケースはうまく分類を説明できているが、(1)のケースは失敗
しているように見える。
それを反映するためには、頻度分布を離散的な集合としてではなく、連続的な区
間として捉えなければいけない。
即ち、連続する正集合の頻度(正区間)のうち、長さが最長、つまり最も多
くの要素から成る区間を選び、その区間に含まれる文書を の意を表すものとする。
但し、それだけでは、どんなに不適当な を定義し、被覆率が一定の下限を上回っている場合に限り、妥当なルール区間と してルールを導出することにする。 この下限値を 閾値 と呼ぶ。 さて、実際には、すべての解析子を作用させ終わっても、一部の文書が分類ルー ルを導出できずに残ってしまう場合もある。 それは、設定した閾値が厳しすぎたことが原因である。 そのため、実際のプログラムでは、初期値としては高い値を閾値に設定しておく。 すべての解析子を作用させた時点で文書集合 D が空でない場合には、閾値を 下げ、再び解析を行うようにする。 最悪の場合、閾値が 0 になった時点で解析が終了することになる。 しかし、一般にグループ内の文書数が多い場合は、かなり閾値が低くならないと ルールが導出されない。 これは、文書数が多くなると、すべての文書がある1つの観点に基づいてそのグ ループに分類されているのではなく、複数の観点に基づいている場合が多くなる からである。 そのため、グループ内の文書数に応じて、補正閾値 を用いることにした。 この式は実験の結果、精度を落さずに速くルールを導出できた経験に基づくもの である(5.2節の実験3 参照)。
ところで、図 4.5のように、完全な正区間をとるよりも、正負混合
区間として考えた方が良い場合もある。
そこで、最長正区間とともに、混合区間
を定義して行う。
更に、実際には頻度が 0 になる文書がかなり多いため、グループ内の文書を
となる。 但し、適合率だけを元にこれらの曖昧な区間の判断をすると、特に閾値が低くなっ てきた場合に、無意味なルールが導出されてしまう。 そのため、正区間の被覆率が閾値よりも大きい場合、つまり着目している解析子 a と候補 s が妥当なものだと判断された場合に限り、混合区間と出現区間 の適合率を求め、大きい方の適合率が正区間の被覆率よりも大きい時には、その 区間をルール区間として導出する。
|
吉田 誠一のホームページ に戻る。 Copyright(C) Seiichi Yoshida (comet@aerith.net). All rights reserved. Sat Mar 8 05:59:11 JST 1997 |