|
本システムの構成は次の通りである(図 3.1参照)。
図 3.1: システム構成図
まず、いくつかの文書からなる文書集合を用意する。
その文書集合は予め何らかの基準に基づいて複数のグループに分類されているも
のとする。
その文書集合を本システムに入力すると、結果として分類のルールが導出される。
システムはまた、予めいくつかの 解析子 を持つものとする。
解析子とは、文書を入力とし、文書中の何らかの最小単位(アトム)を出力とする
ものである。
代表的なものとしては、文書を単語ごとに切り分けて出力するようなものが考え
られる。
本システムは、解析子の返す値を頻度解析して、ルール導出を試みる。
ルール導出の手続きは図 3.2のようになる。
システムは始めに、解析子表から解析子集合 A を読み込む。
次に文書集合 D を読み込むが、これは予め分類されているものとし、そのグ
ループ集合を G とする。
尚、これらの例は図 3.3にある。
解析に入る前に、各解析子 を全文書に作用させて、a の結果出力
されるアトムの集合 を作成する。
頻度解析では、 の各要素 s の頻度分布を解析し、ルール導出を試み
る。
ある s を用いて文書の分類がうまく説明できた時、a と s はその分類の
ルールを説明する妥当な観点であると見なされる。
そこで、 をルールの候補文字列または 候補、 を
ルールの候補文字列集合または候補集合と呼ぶ。
実際の解析は各グループ毎に独立して行う。
あるグループgに着目している時、全文書 D を、そのグループに所属するも
の (正集合 ) と所属しないもの(負
集合 ) とに分けて考える。
各解析子 について、その候補集合 の候補
を1つ1つ作用させて、そのグループに所属するかしないかが説明できるかどうか
を判定する。
具体的には、各文書 d の中の s の頻度 を求め、正集合
に対する頻度分布 と、負集合 に対する頻度分布
が重複しない場合に、そのグループの分類が説明できたものとし、
ルールを導出する。
しかし実際には、ある1つの の組み合わせだけでそのグループのす
べての文書が説明できることは少ない。
そのため、正集合のある部分集合 に対する頻度分布
と負集合に対する頻度分布が重複しない場合も、そのグループを部
分的に説明できたとして、ルールを導出することにする。
あるルールが導出できて、そのグループに所属する文書集合の部分集合
がそのルールで説明されたとする。
この時、文書の全体集合 D から を削除してから、引き続き解析を
行う。
この結果、導出されるルールには順序関係が生じることになる。
つまり、新しい文書にルールを適用して分類する場合、導出されたのと同じ順序
でルールを適用していかなければいけない。
このようなルールを手続き型ルールと呼ぶ。
逆に、ルールが互いに独立で、適用する順序によらず一意に文書が分類できるよ
うなルールを宣言型ルールと呼ぶ
。
以上の手続きを、最終的に D が空になるまで繰り返し行う。
導出されるルール は で表される。
即ち、ある文書 d に解析子 a を作用させ、その結果出力されるアトムの集
合に対し、候補文字列 s の出現頻度が である場合、そ
の文書 d がグループ g に所属すると判定されることになる。
後述する実装では、ルールにそれが正しい結果を返す確率(適合率) p を導入
している。
この場合、ルールの定義は となる。
図 3.2: システムの動作手続き
図 3.3: システムの手続きの例
|