Next: 本論文の構成 Up: 序論 Previous: 研究の背景 |
研究の目的と概要個人書庫の特徴は、分類方法の多様性(独自性)にある。 即ち、必ずしも文書の意味に応じて分類を行っているとは限らないため、従来の キーワードを用いた手法では対応できない場合がある。 例えば自分のメイルの分類方法を考えると、基本的にメイリングリスト毎に分類 している。 そのため、ほとんど同じ内容のメイルでも、異なるメイリングリストに投稿され たものであれば、別のグループに分類されている。 しかし、実際に人間が分類を行う際には、文書を見た上で、どのグループに所属 するかを判断している。 つまり、文書中に分類のキーとなるものが隠されていると考えられる。 そこで本研究では、アトム と呼ばれる文書の最小構成単位を導入し、文 書をアトムに切り分けた上で解析を行うことにする。 アトムとは、例えば1つ1つの文字であったり、または単語のことであったりする が、基本的に、文書の意味的内容に踏み込むことなく抽出できるものであるとす る。 そして、 という考えに基づき、アトムの文書中の出現頻度を求め、頻度解析を行なうこと によって、分類のルール導出を試みる。 本研究の目的は、キーワードが適用できない場合にこの手法が有効であることを 示し、上記の考えが妥当であることを証明することである。 アトムを普通の単語とすれば、キーワードを利用した分類と同じことになる。 先のメイルの例では、メイリングリストのアドレスがアトムとして切り出される ようにアトムを定義してやれば良い。 このように、アトムをどのように定めるかの部分に自由度があり、そこで個人書 庫に於ける分類の観点の多様性に対応することができる。 本研究では、実験のために
まずは人工的なテスト集合に対して実験を行い、何らかの単純な基準に基づいて 分類されている場合も、アトムを抽出して頻度解析を行うことによって、同程度 に妥当なルールが導出され得ることを確認した。 次に、実際のメイルを対象として、その一部を用いてルールを導出し、導出され たルールを全メイルに適用して正答率を測定し、どの程度の精度で分類の自動化 が図れるのかを調べた。 その結果、アトムとして空白や改行で区切られる文字列を用いた場合、実際のメ イルの10% を用いて導出したルールを全体に適用して、70% の確率で正しく分 類できるという結果を得た。 これは言い換えると、ルール導出に用いたメイルを収集するのに要した期間の10 倍の期間に渡って、本研究の手法で導出したルールが70% の適合率を保つとい うことである。 但しここでは、個人の分類の観点は時間が経っても不変であるとしている。 更に導出されたルールを検討した結果、文書の意味と結び付かないようなルール が30% を占めていることを明らかにした。 これは、文書の意味を考えて分類している場合でも、その意味とは無関係のアト ムが、あたかもキーワードであるかのようにその分類を説明している場合が少な くないということを示している。 このことより、文書の意味を表していない文字列も考慮することによって、キー ワードを用いた文書の分類を補うことができると言える。
|
吉田 誠一のホームページ に戻る。 Copyright(C) Seiichi Yoshida (comet@aerith.net). All rights reserved. Sat Mar 8 05:59:11 JST 1997 |