文書検索技術と判例データベース

by 石川幹人


初出 : 明治大学情報科学センター年報第9号(1996年度)27頁


Mikihito ISHIKAWA
Assistant Professor at Meiji University Literature Faculty
E-mail  ishikawa@isc.meiji.ac.jp
Web Page http://www.isc.meiji.ac.jp/~ishilec/ 

 

 デジタル技術の進展に伴い、最近では多量の文書が電子的に蓄積されるようになってきた。こうした電子化文書の有効利用や再利用には、文書検索技術が不可欠である。  
本報告では、判例データを例に取り、文書検索技術の現状と展望について述べる。まず第1章で、このところ発展がめざましい文書検索ツールが持ち合わせる諸機能について、個々に概説する。続いて第2章で、日本における判例データベースの現状について、とくに入手可能性の観点から概観する。第3章では、知識情報処理技術を導入した、次世代の判例データ検索システムについて展望する。

1.文書検索の諸機能

1-1. 代表語検索と全文検索

 従来の文書検索というと、書誌事項や見出し語を対象とした検索がほとんどであった。これは、文章に付された代表的な語を、検索キーワードとマッチングすることによって所望の文書を検索するものである。ここで必要となる代表語は、文書を作成した当の本人か、または文書管理の専門家が文書の内容に鑑みて、文書を代表するにふさわしい数語を都度に与えていた。こうした代表語検索の問題点は、文書の豊富な内容を数語で代表させることの困難さにある。限定された語句で代表されれば必然的に、文書内容にあるにもかかわらず検索されないという、いわゆる検索もれを起こすこととなる。
 代表語検索に代わって登場したのは全文検索である。全文検索は文書に現れるほとんどすべての語句を切り出し、辞書のような参照表を形成することで、文書に現れるあらゆる語句と検索キーワードとのマッチングを可能にした。全文検索は、検索のための見出し語を作成する手間を省いたうえ、もれのない網羅的な検索を実現できる。とくに近年発達してきたWWW(World Wide Web)に蓄積されてきているような不定形の文書の検索に威力を発揮している[1]
 全文検索では、単に存在する文字の並びをマッチングしただけでは不完全である。それでは、不要文書がたくさん検索されてしまう。たとえば、「京都」というキーワードで「東京都」を含む文書がマッチングしてはならないし、「スキー」で「チャイコフスキー」が、「いも」で「楽しいもの」がマッチングしてはならない。全文検索の精度は、語句切り出しに関する自然言語処理技術にかかっている。

1-2. ランキング

 検索された多数の文書を、重要と推定される順に並べて提示する機能が、ランキングである。検索キーワードをOR連結で多数与えて全文検索すると、不要文書がたくさん検索されてしまうことがある。こうしたとき、検索された文書がランキングされていると、ユーザの大きな助けになる。ランキングは、検索キーワードに対する文書の適合度評価スコアで順序づけられる。適合度評価スコアは、基本的に検索キーワードの出現回数で決定されるが、検索文書の長さや、検索キーワードの普遍性で調整される[2]。文書が長ければ、検索キーワードの出現回数が多いのは当然であるし、また、普遍的に(頻繁に)現れる検索キーワードの出現回数が多くなる傾向があるのも当然である。そうした影響を調整する計算式等が開発されている。
 検索キーワードの近接性も、適合度評価スコアに反映される仕組みがあるとなお良い。複数の検索キーワードが近接して出現するときは、それらの間に関連した意味があるということである。なかには「検索キーワードXと検索キーワードYとが20文字以内で近接している文書」といった指定が可能な、検索システムもある。

1-3. 文脈表示

 検索された文書内で検索キーワードがどのように使われているかを表示することで、ユーザは所望の文書かどうかを素早く判断できる。なぜなら、キーワード前後の文脈から、該当のキーワードが期待とは全く違った意味あいで使われている不要文書がすぐわかり、それを捨てることが容易になるからである。文脈表示を実現するためには、検索キーワードの近傍の十数文字を表示したり、検索キーワードを含む文やフレーズを判定し、切り出して表示したりしている。
 語法研究のために使われるコンコーダンサーは、検索語句の文書内での用法を一覧するために、近傍の数語を一緒に並べて表示する[3]。広い意味では、これも文脈表示の一形態と捉えられる。

1-4. 同義語や異表記の吸収

 検索キーワードには、同義語や異表記もつものがあり、その対応をとらないと、文書が検索できないことがある。たとえば、「インター・フェース」と、「インターフェース」と、「インタフェース」などや、「りんご」と、「リンゴ」と、「林檎」などがそれである。こうした単語群は、それらをひとつのグループにした対応表を用意し、どの単語で検索がなされても他の単語と同一視する。すると結果として、同義語や異表記の吸収を行った検索が実現できる。
 類義語についても、同様な手法で吸収が可能である。しかし、あまり多用すると、不要文書が大量に検索されてくるので注意が必要である。とくに全文検索の場合、大量な不要文書が検索される傾向が顕著である。

1-5. 文書同士のマッチング

 検索キーワードでなく、文書そのものを、検索の手がかりとして与えることにより、関連文書をマッチングさせることも可能である。とくに、検索キーワードから得られた文書を調べ、見つかったひとつの興味深い文書を手がかりにし、他に類似の文書がないかという発想で、次の検索を行うのが便利である。この機能を関連性フィードバックという。
 文書同士のマッチングを実現するには、各文書に現れる代表的な語句を統計的に切り出し、それらの語句が張るベクトル空間を定義する。そして、各文書につき各々がもつ代表的な語句のベクトルを形成しておく。すると、文書同士の類似性を、ベクトルの内積を計算することで、算出できる。これをベクトル空間法という[2]

1-6. 関連キーワード抽出

 検索された文書群から代表的な語句を切り出し列挙し、次の検索に関連キーワードとして役立てる機能がある[1]。検索キーワードが思いつかず、類似の語句でいったん検索した後で、その結果の文書から的確な検索キーワードを見いだすときに便利である。また、検索キーワードをAND継ぎ足し、検索された多量の文書を絞り込んでいくときにも利用できる。

2.判例データベース

 わが国における判例データを備えた最初の情報システムは、日本電気が1968年に開発したJUSTICEである[4]。JUSTICEは、最高裁判所の判例をカタカナのキーワードでもって検索する機能をもち、その後の判例検索のパイロットシステムとなった。1987年には、梅本吉彦専修大学教授を研究代表者とするグループにより、判例の本文全文を格納し、それを検索対象とした交通災害判例検索システムが開発された[5]。同システムでは、日立製作所のHITAC-Mシリーズ上に交通災害に関する判例を格納し、検索ソフトウェアORIONを使って検索機能を実現した。
 また、官公庁では、1980年に総務庁(当時の行政管理庁)が行政官庁の共同利用サービスの一貫として、法令判例検索システムを開発した[6]。判例データについては、現憲法下の判例のうち、判例集に記載の全件を入力しているが、裁判要旨のみで本文は入力されていない。通産省、建設省、農水省等でも独自に、各省に関連する法令判例データを整備し、それらに関しても同様の検索サービスを確立している。しかし、これらの官公庁におけるサービスは、省庁外には開放されてはいない。
 一般利用者向けの最初の実用システムは、1984年に東洋情報システムが開発したJUPITERである。JUPITERは最近まで市販されていたが、CD-ROMによる情報の廉価提供の流れに圧されたためか、現在では廃止されている。現在のところ、市販で手に入る電子化された判例データは、次に掲げたものである。

(a)  判例体系(第一法規出版)

 CD-ROM(Windows版)9枚に、現/旧憲法下の判例約12万5千件を収録。うち約9万5千件については本文(全文:主文と事実と理由)も収録。文中から切り出した語句に基づくインデクスを対象としたキーワード検索。年2回更新。法編毎の分割購入可。

(b)  判例MASTER(新日本法規出版)

 CD-ROM(Mac版/Windows版)1枚に、現憲法下の判例9万2千余件を収録。うち代表的な約8千件については本文(主文と理由のみ)も収録。6万語の辞書に基づくインデクスを対象としたキーワード検索。年2回更新。NIFTY-serveのホームパーティ「判例の達人」で最新情報を随時提供。

(c)  リーガルベース(日本法律情報センター)

 CD-ROM(Windows版/Mac版)1枚に、現憲法下の判例約9万2千余件を収録。全件について本文(必要とされる重要部分のみ)も収録。完全一致全文検索。ハードディスク等へのダウンロードに制限なし。年2回更新。DVD対応もあり。

(d)  行政判例CD-ROM(ぎょうせい)

 CD-ROM(Windows版)1枚に、地方自治に関係する判例に限定して、現/旧憲法下の約1万件を収録。全件について本文(判決理由の一部のみ)も収録。類義語展開が可能な完全一致全文検索。年2回更新。

(e)  模範六法CD-ROM版(三省堂)

 CD-ROM(電子ブック規格)1枚に、模範六法が収録されたもの。法令の各条文につき、関連する判例要旨が約8千件付記されている。電子ブック用検索ソフトを利用。数年毎に改版。

(f)  LEX/DB(TKC)

 (a)の判例体系と同様のサービス内容を、パソコン通信ネット等からオンラインで提供。データは毎週更新。検索代行サービスも有り。

 以上に示した各々の判例データベースの判例件数(拘束力をもつ判例は最高裁判例に限るなどの議論があるが、ここでの判例とは単に全裁判例を指すこととする)は、例えば特許庁が提供している出願公開特許の電子データ(平成6年分で年間35万件[7])に比べ、極めて少ない。ところが、実際の民事・行政事件の裁判例数[8]は、平成6年分で年間240万件であり、平成2年の178万件から4年間で35%の伸びを示している。この裁判例数は、特許の出願数に比べ1桁多い。すなわち、わが国における判例の電子データは、特許明細書の電子データのように全件全文は完備されていないのである。一方、米国では、LEXIS、JURIS、WESTLAW等の判例データベースシステムが、1970年代から整備されてきており、分野別のライブラリ化や、オンラインによる検索が実現されている[9]。LEXISは、1790年以降の約600万件のデータが収録されており、現在でも週に1万件のペースで増加している。
 わが国において、判例データの電子化が遅れている理由は、第1に裁判例の公開・電子化が進んでいないこと、第2に米国のように先例拘束主義ではなく、大陸系の成文法主義であるため、判例公開の要求が比較的低いことが揚げられよう。その結果、現在、判例集等により公刊されている判例は、高裁・最高裁判例を中心に年間2千件程度に過ぎない。先に揚げた各社の判例データは、各々、公刊された印刷文書に基づいて手作業で入力したものである(要旨、解説等の著作権がある部分は、別途、各社独自に作成している)。
 しかし、最近では、社会における情報公開の要請が高まりつつあるうえ、裁判実務の情報化の兆しも現れている[10]。個人情報の保護が留意されながらも、多くの判例が電子的に公開されるのも、そう遠くはない将来のことであろう。また、わが国は成文法主義をとっているといえども、判例は抽象的法規範の具体化や、法文に規定のなかった一般法理の定立、あるいは社会の実態に即した法文の実質的修正などに積極的な役割を果たしている[11]。近年のように、情報化・グローバル化という言葉で言い表されるように社会の変化が激しくなってくると、判例の果たす役割も一段と大きくなってくる。そのため、判例に関する洩れのない調査は、実務においても、法学研究においても重要な課題となり[12]、判例データの完備とその円滑な検索利用に対する要求は、以前にも増して大きくなるに違いない。

3.知識情報処理を用いた判例データ検索システム

3-1. 判例データの高度検索:事例ベース推論システム

 判例を扱う知識情報処理システムでは、過去の判例を利用した情報処理を行う必要上、類似判例の高度な検索をする機能を備えている。代表的な類似判例検索の実現形態は、事例ベース推論[13]である。法的推論システムHELIC-II[14]は、事例ベース推論機能を装備した本格的な知識情報処理システムあり、図1のように2つの推論エンジンと法令文のルールベース、判例の事例ベース、そして概念辞書からなる。
 一般に判例文には、事件の概要、双方の主張、裁判官の理由づけと結論等が書かれているが、HELIC-IIでは、判例の情報を「状況記述」と「事例ルール」という知識表現形式で表す。「状況記述」は図2上のように、事件の概要を、オブジェクトやそれらの間の時間関係で記述したものである。オブジェクトは、人物、行為、権利等を、「概念を表す述語」と「オブジェクトの識別子」と「そのオブジェクトに関する性質を[属性名=属性値]の対のリスト」で表現したものである。属性値もオブジェクトとなる。システム内部では、この記述は、オブジェクトをノードとし、属性(あるいは時間関係)をリンクとした意味ネットワークとして展開される(図2下)。
 「事例ルール」は、当事者双方の主張や裁判官の理由づけを「〜の条件に適合する   →  〜と帰結 する」の形式のルールの集合で表現したものである(図3右)。「事例ルール」には、事実解釈ルールと法的判断ルールがあり、事実解釈ルールは、事実関係から法的概念を導くもので、具体的な概念を用いて記述され、条件部は類似性に基づいて適合される。それに対し、法的判断ルールは、ある法的概念から次の発展した法的概念を導くもので、抽象的な概念で記述され、変数を含み、条件部はより完全な適合が要請される。法令文ルールの形式も法的判断ルールと同様であるが、法令文ルールの場合は、類似性は考慮されずに条件適合が行われる。裁判での論理展開は、「状況記述」を開始点とする、事例ルールと法令文ルールの条件適合連鎖(推論)と捉えることができる[15]
 事例ベース推論エンジンの役割は、新しく検討すべき事件が与えられたときに、類似の判例中の論理展開を利用して、「公共の福祉に反する」などの抽象的な法的概念に至る主張を構成し、列挙することにある。これは、新しい事件の状況記述を手がかりにして、類似事例検索と類似論理構築の2つの段階を経て行われる。類似事例検索では、新しい事件の状況記述と、判例ベースにある各判例の状況記述を比較することで、類似する判例を粗く選定する。類似性の判定は、状況記述を構成する意味ネットワークのリンクを相互に照合し、照合がとれた数によって行う。各リンクの照合は、同一名のリンクの両端のオブジェクトについて概念辞書を参照し、そこに書かれている概念体系の階層構造において、許容される距離内で上位概念を共有する場合は、照合と判定する。一般用語の概念辞書は電子化辞書[16]様の形式を使用しており、それに法律用語の概念体系を付加している。
 続いて類似論理構築では、選定された各判例の事例ルールにつき、新しい事件の状況記述と類似性に基づく条件適合を行い、法的概念の仮設を生成する。生成された法的概念は、また他の事例ルールにより、次の法的概念が仮設される。類似性に基づく条件適合は、事例ルールの条件部に現れる記述と、新しい事件の状況記述とを比較し、リンク単位で照合したうえで条件部全体で適合を判定することでなされる。リンク単位の照合は、類似事例検索と同様に概念辞書を参照して行う。条件部全体の適合判定は、条件部の記述にあらかじめ付与してある重要度の重みに依存する。重みのうちexact が付されているリンクは、そのリンクが照合しない限り条件適合はなされない。重みには他に important (imp) と trivial があり、それが付されたリンクについては概念辞書中の階層距離に相対的な重みづけをしたうえで、条件部全体の類似度を積和計算する。その類似度が設定した値を越えたならば条件適合がなされる。結果として、あるノードにおいて概念辞書中で上位概念を共有してなくとも、意味ネットワーク上で周囲のリンクが照合していれば、類似性に基づく条件適合がなされる場合も出てくる。

3-2. 判例の事例ベース構築への展望

 HELIC-II は、上に述べたように法令文と過去の判例とを利用し、新しい事件に対する法的判断例とその理由づけを生成する知識情報処理システムであり、法律の実務や法学研究への計算機による支援を目指したものである。ところが、現在のシステムを法律分野の実用的な利用に供するには、事例ベース構築に関する次の解決すべき問題がある。

(1) 判例記述の問題

 極めて多くの判例件数にわたり、いちいち「状況記述」や「事例ルール」を書き下していては、システム開発者の作業が膨大となってしまう。

(2) 辞書更新の問題

 増加する判例に応じて必要となる概念辞書の整備・更新の手間が煩わしいので、自動更新[17]の要求がある。

(3) 新事件入力の問題

 検討すべき新しい事件を入力するにあたり、システムの使用者がその事件の「状況記述」を特有の形式で表現するのは無理がある。

(4) 理由づけ出力の問題

 結果として得られた理由づけを出力するにあたり、「事例ルール」の条件適合連鎖をそのままの形式で表示しても、システムの使用者は容易には理解できない。

 上述の諸問題を解決するには、自然言語の原文レベルでの処理を拡張する必要がある。そこで、各知識表現形式に添えてそれが由来する部分原文を保持し、その部分原文を処理すべき判例原文に対して照合し、改訂した知識表現形式を、対応する知識表現形式に基づいて生成する。詳述すれば、次の3段階で対処する。

 第1段階では、代表的な判例について、これまでと同様にシステム開発者が手作業で事例ルールを作成する(図3)。そのうえで、対応する原文もデータ蓄積する。例えば、図3右の事例ルールに対して、図3左の部分原文データを対応づけて格納する。状況記述の作成も同様に手作業で行い、対応部分原文とともに格納する。ただし、事例ルールの条件部に出現しないような状況記述は必要ないので、知識表現形式に書き下さない。

 第2段階では、代表的判例以外の判例の知識表現形式を、判例原文から自動生成する。そもそも法律文における語句の使用形態や言い回しは、自然言語一般に比べ限られており、とくに法令文ではそれを制限言語として捉えた言語解析研究がなされている[18,19]。判例においても、事実関係の記載等は一般的な非定型の文体であるものの、主張や理由づけの記載部分は比較的定型性が高い。そこで、あらかじめ手作業で切り出した部分原文と対応事例ルールとを手掛かりにすれば、改訂事例ルールを生成する程度の言語処理は可能と思われる。例えば、処理すべき判例原文に図4左のような記載があった場合、図3左の部分原文と照合し、図4右の事例ルールが生成できよう。照合は文法構造における語句の対応づけ(テンプレートマッチングについてはMUCの成果がある[20])、 前述と同様の類似性判定(重みづけと概念辞書による)によって行う。例えば、「因果関係」「暴行」は両原文で合致するが、図3左の「逃走」 は、図4左では「逃れ」「逃げ」となっている。概念辞書を参照して該当部分の照合を行い、図3右の「逃走」の部分を入れ換える。また、図4上では因果関係の原因と結果の順番が入れ替わっているが、構文の並列関係を調べることで照合がとれる。手作業で作成した事例ルールと全く異なる事例ルールは生成できないものの、この方法で条件部に変更を加えた改訂事例ルールが生成できる。事例ルールの生成が行われたならば、それに関連する状況記述も、格納してある状況記述と、それに対応する部分原文とを手掛かりにして同様に生成が可能であろう。ただし、状況記述に関する記載は定型性が低いので、照合における類似性判定の許容度合を大きく下げる必要がある。
 第2段階までで、多数の判例にわたって知識表現の形式になったデータが揃う(判例記述問題の解決)。似たような事例ルールが多く蓄積されて同時に照合が発生するという問題が起こりかねないが、似た事例ルールをまとめあげて統計的な主張の強さに還元させれば、かえって有効に活用できるだろう。また、改訂事例ルールと、元の事例ルールとを比較することで、概念辞書の更新も行える。例えば、図4右の「転落」が概念辞書中になかったとしても、図3右の「溺死」と同様に「死亡」の下位概念として概念辞書を更新すれば、妥当性に問題がある場合もあるので考慮が必要だが、その後の類似性判定に活用できる(辞書更新問題の解決)。

 第3段階では、新しい事件の状況記述を生成する。新事件についてはシステムの使用者が新規に入力するので、散文調になることもあり、文法的な解析の可能性はあまり期待できない。だから、判例データに蓄えられている状況記述と語句レベルの粗い照合をして、新事件の状況記述を生成するとよいだろう。新事件の事実関係が網羅的に入力されることも、同様に期待できないので、比較的多くの状況記述が照合する事例ルールの条件部に関しては、残りの照合しない状況記述をも新事件の状況記述として仮設する等の、特別な対処も必要であろう。その結果、HELIC-IIの推論処理が、新事件についての処理というよりは、新事件と類似の判例での論理展開を列挙する処理に近くなってしまうが、それでも法律分野での利用という目的には十分かなうであろう(新事件入力問題の解決)。さらに、推論結果の理由づけにあたる論理展開の列挙に際しては、事例ルールの条件適合連鎖をそのまま表示するのでなく、対応する部分原文を、新事件に照合した語句を埋め込んだうえで連鎖状に出力すると自然言語表示になるため、システム使用者の理解が容易となろう(理由づけ出力問題の解決)。

 以上では、事例ベースを用いた高度検索と、事例ベース構築法の改良に向けた展望を、判例データを例に挙げて具体的に述べた。こうした文書検索技術の骨格は、単に判例データだけでなく、半定型の文書が多量に格納された文書データベースの構築、および高度な検索利用に、広く適用可能である。


参考文献


[1] 野口喜洋,佐藤光弘,上野剛,星田昌紀,石川幹人:検索型ナビゲーションを実現したホームページ知的検索システム,情報処理学会,利用者指向の情報システムシンポジウム,pp.91-98 (1996).
[2] Salton,G.: The Vector Space Model, Automatic Text Processing, Addison-Wesley  Publishing, pp.312-325 (1989).
[3] 赤野一郎:コーパスによる語法研究のこれから,英語教育,No.2, pp.26-29 (1997).
[4] 堀部政男,永田眞三郎: 情報ネットワーク時代の法学入門,三省堂   (1989).
[5] 梅本吉彦: 法情報検索の現段階,ジュリスト増刊 「ネットワーク社会と法」, pp.130-135 (1988).
[6] 高石義一: 法律情報検索の現状と課題,にじゅういち出版,pp.82-144 (1985).
[7] 特許庁総務部総務課「特許庁広報」
[8] 最高裁判所事務総局総務局統計課「司法統計年報(民事・行政編)」
[9] 田島裕:法律情報のオンライン検索,丸善   (1992).
[10] 夏井高人:裁判実務とコンピュ−タ,日本評論社   (1993).
[11] 中野次雄:判例とその読み方,有斐閣  (1986).
[12] 良永和隆: 法情報検索の意義と方法,専修大学出版局「法情報学要論」,   pp.33-61   (1991).
[13] Hoshida,M., Nitta,K. and Ishikawa,M.: Experimental System of Parallel Legal Reasoning using Precedents, Proc. Joint American-Japanese Workshop on Parallel Knowledge Systems and Logic Programming,  UC Davis Research Report CSE-91-27,  pp.M16-23  (1991).
[14] 大嶽能久,新田克己,前田茂,小野昌之,大崎宏,坂根清和:法的推論システム HELIC-II,情報処理学会論文誌,Vol.35,  pp.986-996  (1994).
[15] Branting,K.: Representing and Reusing Explanations of Legal Precedents, Proc. International Conference on Artificial Intelligence and Law, pp.103-110   (1989).
[16] EDR電子化辞書使用説明書,日本電子化辞書研究所 (1993).
[17] 槫松理樹,山口高平: 事例に基づく推論とモデル推論の統合に基づく知識獲得支援システム (1)法律解釈知識の獲得,人工知能学会誌,Vol.11,  pp.585-592 (1996).
[18] 野村浩郷: 法律文制限言語モデルに基づく法律文の計算機処理,吉野一編「法律エキスパートシステムの開発研究」,文部省科学研究費研究成果報告,pp.229-252 (1995).
[19] 川添一郎,牧隆史,田中規久雄: 法律条文の標準構造(2), 情報処理学会自然言語処理研究会 107-13,pp.97-104   (1995).
[20] MUC-5: Proc. Fifth Message Understanding Conference, Morgan Kaufmann Publishers (1993).


表及び図は省略


Copyright (C) 1997 Mikihito ISHIKAWA, All rights reserved.

Uploaded (on this Web Page) : Jun/22/1998

Last Modified : Dec/25/1998

Junction

Logic

Top Page