Digital Hermeneutics System (デジタルテキスト解釈システム:以下DHS)は、人間のテキスト解釈行為のサポートを行うための、デジタルライブラリーソフトウェアです。DHSはGPLライセンスに基づくオープンソースのフリーウェアで、GPLライセンスに基づく限り、誰でも無償で利用可能です。
古典文献などのテキストを読んで理解しようとする場合、テキストが書かれた言語、テキスト書かれた当時の文脈、修辞法などさまざまな要因が問題になります。たとえば聖書を読む場合、古典ギリシア語・ヘブライ語の文法や単語の知識、古代イスラエルの社会制度や宗教制度、ヘブライ語やギリシャ語的な修辞法や言い回しなどを一通り押さえなければ、その意味することを理解することはほとんど不可能です。しかしながら、これらの全てを普通の人が学ぶのは困難で、その結果として人類の遺産である多くの古典テキストの原文が、長年にわたる修練を積んだ専門家だけが読解できるのものになってしまっています。そこで近年、より多くの人が古典の原文に触れて読解できるようにと、コンピュータの力を借りたデジタルライブラリーシステムが多数開発されてきています。DHSもその中の一つですが、DHSの特徴としてはオープンソースのフリーウェアであることと、特定のテキストに特化せずに、汎用的にデジタルライブラリーを構築可能なシステム構成であることが挙げられます。
また、DHSのもう一つの特徴として、自然言語処理によるテキスト解析機能と引用解析機能を備えている点があります。自然言語処理機能とは、コンピュータを用いて人間の通常の言葉が書かれたテキスト(プログラミング言語に対して自然言語と呼びます)の処理を行う機能です。引用解析機能とは、あるテキストと別のテキストの引用関係をデータ化し、大量のテキストの関係をコンピュータに処理させることで、テキスト同士をグループ化したり、たくさんのテキストの中で重要なテキストを見つけ出したりする機能です。従来はテキストを読んで分類したり、理解したりするのは人間だけができることでしたが、現在はさまざまな研究の進展によって、コンピュータがテキストの解析をすることが徐々に可能になってきています。人間がテキストを解釈する場合のとコンピュータの違いは、結果に客観性があること、大量のテキストに対して短時間で全く同じ処理を施せること、などがあります。現在のコンピュータの能力では人間並みの柔軟なテキスト解釈は全く不可能ですが、ある単語がテキスト中でどのように使われているか、二つのテキストに出てくる単語の出現の仕方の違いなどの単純な特徴の抽出に関しては人間が行う場合よりもずっと効率的に処理を行えます。コンピュータに単純繰り返し作業を高速・正確・大規模に行わせることで、人間の側はそれ以外の高度な解釈により多くの時間を裂くことができるようになります。
テキストの解析に使える手法にはさまざまなものがあり、それらを組み合わせて使うことが柔軟で多様なテキスト処理が可能になります。DHSは、ユーザーが自分で新しい処理をシステムに組み込み、他の処理と組み合わせるむことができるようなシステム構成になっています。現在DHS上で使える処理の数はまだ多くありませんが、今後徐々に増やしていく予定です。DHSは、テキストを計算機やネットワークの力を用いて解析・解釈するための汎用サポートフレームワークになることを目標として、現在も開発を進めています。
DHSは、Apache Tomcat上で動作する、JSP+Servelt、JAVAScriptをベースにした、サーバークライアントモデルのソフトウェアです。ライブラリ用のテキストファイルと設定ファイルを作成することで、サンプルに付属する聖書以外にもさまざまなテキスト群のデジタルアーカイブを構成することが可能です。現在、日本語・英語・ラテン語の基本的な形態素解析辞書のみを実装していますが、ユーザーが独自の辞書や形態素解析モジュールをDHSに付加することで、さまざまな言語のテキストに対応することができます(ただしUTF8文字コードで処理可能なもの)。
サーバークライアントモデルのソフトウェアになっているため、デジタルアーカイブをインターネット上で公開する場合や、大学内のみ、研究室内のみなどのローカルネットワーク内で公開するなどの使い方をすることができます。もちろん、個人用のパソコンで利用することも可能です。
DHSは複数のモジュールから構成されます。モジュールとは、デジタルアーカイブに対して何らかのまとまった処理を施す機能の単位です。モジュールの単位としては例えば、テキストの表示や検索などがあります。DHSの複数のモジュールを組み合わせて使うために、モジュール間でデータの受け渡しができるようになっています。モジュール間で受け渡しされるデータをオブジェクトと呼びます。オブジェクトには本のリスト、節のリスト、単語のリストや単語のネットワークなど複数の種類があります。これらの複数種類のオブジェクトに対してモジュールの処理を施すことでさまざまなテキスト解析を行うことができるようになっています。
現在のDHSのモジュールとオブジェクトの構成は以下のようになっています。
翻訳並行閲覧モジュールは、一つのテキストの原典や多数の翻訳を並行して閲覧することのできる機能です。
多言語検索を実行するモジュールです。
多言語単語計量を実行するモジュールです。