研究の目的と概要

Next: 本論文の構成 Up: 序論 Previous: 研究の背景

研究の目的と概要

個人書庫の特徴は、分類方法の多様性(独自性)にある。即ち、必ずしも文書の意味に応じて分類を行っているとは限らないため、従来のキーワードを用いた手法では対応できない場合がある。例えば自分のメイルの分類方法を考えると、基本的にメイリングリスト毎に分類している。そのため、ほとんど同じ内容のメイルでも、異なるメイリングリストに投稿されたものであれば、別のグループに分類されている。
しかし、実際に人間が分類を行う際には、文書を見た上で、どのグループに所属するかを判断している。つまり、文書中に分類のキーとなるものが隠されていると考えられる。そこで本研究では、アトム と呼ばれる文書の最小構成単位を導入し、文書をアトムに切り分けた上で解析を行うことにする。アトムとは、例えば1つ1つの文字であったり、または単語のことであったりするが、基本的に、文書の意味的内容に踏み込むことなく抽出できるものであるとする。そして、

screen26
という考えに基づき、アトムの文書中の出現頻度を求め、頻度解析を行なうことによって、分類のルール導出を試みる。本研究の目的は、キーワードが適用できない場合にこの手法が有効であることを示し、上記の考えが妥当であることを証明することである。
アトムを普通の単語とすれば、キーワードを利用した分類と同じことになる。先のメイルの例では、メイリングリストのアドレスがアトムとして切り出されるようにアトムを定義してやれば良い。このように、アトムをどのように定めるかの部分に自由度があり、そこで個人書庫に於ける分類の観点の多様性に対応することができる。
本研究では、実験のために
1文字
一連の英数字、記号1文字
一連の英数字、一連の記号列
空白または改行で区切られる文字列
一連の英数字、一連の同種日本語文字、一連の記号列
という5種類のアトムを定め、実際に文書集合からルール導出を試みて、上記の考えの妥当性を示す。サンプル文書集合としては、自分のメイルフォルダにあるメイル(21MB,4797ファイル)等を用いて実験を行なった。
まずは人工的なテスト集合に対して実験を行い、何らかの単純な基準に基づいて分類されている場合も、アトムを抽出して頻度解析を行うことによって、同程度に妥当なルールが導出され得ることを確認した。
次に、実際のメイルを対象として、その一部を用いてルールを導出し、導出されたルールを全メイルに適用して正答率を測定し、どの程度の精度で分類の自動化が図れるのかを調べた。その結果、アトムとして空白や改行で区切られる文字列を用いた場合、実際のメイルの10% を用いて導出したルールを全体に適用して、70% の確率で正しく分類できるという結果を得た。これは言い換えると、ルール導出に用いたメイルを収集するのに要した期間の10 倍の期間に渡って、本研究の手法で導出したルールが70% の適合率を保つということである。但しここでは、個人の分類の観点は時間が経っても不変であるとしている。
更に導出されたルールを検討した結果、文書の意味と結び付かないようなルールが30% を占めていることを明らかにした。これは、文書の意味を考えて分類している場合でも、その意味とは無関係のアトムが、あたかもキーワードであるかのようにその分類を説明している場合が少なくないということを示している。このことより、文書の意味を表していない文字列も考慮することによって、キーワードを用いた文書の分類を補うことができると言える。