---------------------------------------------------------------------

next up previous contents
Next: 本論文の構成 Up: 序論 Previous: 研究の背景

---------------------------------------------------------------------

研究の目的と概要

個人書庫の特徴は、分類方法の多様性(独自性)にある。 即ち、必ずしも文書の意味に応じて分類を行っているとは限らないため、従来の キーワードを用いた手法では対応できない場合がある。 例えば自分のメイルの分類方法を考えると、基本的にメイリングリスト毎に分類 している。 そのため、ほとんど同じ内容のメイルでも、異なるメイリングリストに投稿され たものであれば、別のグループに分類されている。

しかし、実際に人間が分類を行う際には、文書を見た上で、どのグループに所属 するかを判断している。 つまり、文書中に分類のキーとなるものが隠されていると考えられる。 そこで本研究では、アトム と呼ばれる文書の最小構成単位を導入し、文 書をアトムに切り分けた上で解析を行うことにする。 アトムとは、例えば1つ1つの文字であったり、または単語のことであったりする が、基本的に、文書の意味的内容に踏み込むことなく抽出できるものであるとす る。 そして、

screen26

という考えに基づき、アトムの文書中の出現頻度を求め、頻度解析を行なうこと によって、分類のルール導出を試みる。 本研究の目的は、キーワードが適用できない場合にこの手法が有効であることを 示し、上記の考えが妥当であることを証明することである。

アトムを普通の単語とすれば、キーワードを利用した分類と同じことになる。 先のメイルの例では、メイリングリストのアドレスがアトムとして切り出される ようにアトムを定義してやれば良い。 このように、アトムをどのように定めるかの部分に自由度があり、そこで個人書 庫に於ける分類の観点の多様性に対応することができる。

本研究では、実験のために

  • 1文字
  • 一連の英数字、記号1文字
  • 一連の英数字、一連の記号列
  • 空白または改行で区切られる文字列
  • 一連の英数字、一連の同種日本語文字、一連の記号列
という5種類のアトムを定め、実際に文書集合からルール導出を試みて、上記の 考えの妥当性を示す。 サンプル文書集合としては、自分のメイルフォルダにあるメイル(21MB,4797ファ イル)等を用いて実験を行なった。

まずは人工的なテスト集合に対して実験を行い、何らかの単純な基準に基づいて 分類されている場合も、アトムを抽出して頻度解析を行うことによって、同程度 に妥当なルールが導出され得ることを確認した。

次に、実際のメイルを対象として、その一部を用いてルールを導出し、導出され たルールを全メイルに適用して正答率を測定し、どの程度の精度で分類の自動化 が図れるのかを調べた。 その結果、アトムとして空白や改行で区切られる文字列を用いた場合、実際のメ イルの10% を用いて導出したルールを全体に適用して、70% の確率で正しく分 類できるという結果を得た。 これは言い換えると、ルール導出に用いたメイルを収集するのに要した期間の10 倍の期間に渡って、本研究の手法で導出したルールが70% の適合率を保つとい うことである。 但しここでは、個人の分類の観点は時間が経っても不変であるとしている。

更に導出されたルールを検討した結果、文書の意味と結び付かないようなルール が30% を占めていることを明らかにした。 これは、文書の意味を考えて分類している場合でも、その意味とは無関係のアト ムが、あたかもキーワードであるかのようにその分類を説明している場合が少な くないということを示している。 このことより、文書の意味を表していない文字列も考慮することによって、キー ワードを用いた文書の分類を補うことができると言える。

---------------------------------------------------------------------

吉田 誠一のホームページ に戻る。
Copyright(C) Seiichi Yoshida (comet@aerith.net). All rights reserved.
Sat Mar 8 05:59:11 JST 1997