---------------------------------------------------------------------

next up previous contents
Next: ルールの評価 Up: システムの実装 Previous: システムの実装

---------------------------------------------------------------------

術語の実装

システムを UNIX 上で実装したため、ここで扱う文書とは、UNIX の一般のファ イルのこととする。 文書集合は、予め複数のグループに分類して置いておく。 具体的には、グループ毎に独立したディレクトリを作成し、そこにファイルを置 く。 例えば、3つのグループに分類する場合、

tabular256

のような3つのディレクトリを作成し、それぞれにファイルを置いておく。 実行時には、プログラムの引数に ./doc を指定する。

解析子は UNIX コマンドである。 但し、標準入力から文書を読み、標準出力にアトム集合を出力するフィルタとす る。 解析子集合は、図 4.1のような解析子表として予め用意しておく。 書式は、

tex2html_wrap1490
である。

ここでは実験用に ./atom というフィルタを作成し、引数によって5通り の解析を行った。 これらの具体的な意味は表 4.1の通りである。 この中で、一連の英数字または一連の同種日本語文字をアトムとして抽出すると、 例えば ``Hello'' や ``漢字'' といった文字列が切り出される。 そのため、これは正確ではないが、単語を抽出していると考えることができる。

   table269
表 4.1: atom の意味

   figure278
図 4.1: 解析子表

ルールは、図 4.2 のようなファイルとして導出される。 書式は、

tex2html_wrap1494
である。

   figure293
図 4.2: ルール表

---------------------------------------------------------------------

吉田 誠一のホームページ に戻る。
Copyright(C) Seiichi Yoshida (comet@aerith.net). All rights reserved.
Sat Mar 8 05:59:11 JST 1997