nomurahideto's blog

http://researchmap.jp/nomurahideto/

ダイナミック知識ベースモデル

守岡さんの「CHISE設計思想*1を聞きに行ってきて、「自動化」「機械可読」といった話から思いついた(だけの)データベース構想妄想を以下書いてみます。

CHISEでは、CHISE本体を親として、ドメインによってネームスペースのように追加の文字素性セットをリンクさせて運用することができるそうです。実際、IRGでは川端さんが作ったCHISEのブランチで異体字同定の作業を行っているそうです。またSATのテキストデータベース*2のように、検索の際にCHISEから異体字情報を参照したりする実装もすでに運用されています。
そこで一歩すすめて、CHISE環境を基盤として、知識ベースを利用の度ごとにダイナミックに生成するというデータベースはどうかな、と思ったんです。
たとえばSATのテキストデータベースを利用するとして、述語や専門用語などをテキストデータそのものにマークアップして組み込んでいくのではなく、CHISEの文字素性のサブセット(ドメイン仏教とかなんとか)として作成しておきます。もちろんその情報は、まずデータベースの利用者が検索を行う際に連想検索的に使うわけです。しかしその次、実際にテキスト本文を表示させるときに、やはりそのサブセットを参照して、自動的にリンクの張られたページが生成されるというしかけです。WikiのAutolinkやはてなダイアリーのイメージですね。このやり方だと、サブセットの方に情報を追加していくだけで、例えば新しく人名や地名を文字素性として追加することで、データベースの方も更新されます。またサブセット自体をWikiなどで公開し、単体でオンライン辞書として利用もできるようにします。すると、その語が使用されている文献を出典情報として自動的に登録されるようにしておけば、不適当な参照情報を削ることで、次からその箇所を表示するときにリンクされなくなります。また逆に新たな用語を追加することも難しくないでしょう。
このやり方がおもしろいのは、元のテキストと知識セットが切り離されているので、別のセットを持ってきてそれを利用するということができることです。つまり別のプロジェクトで、例えば儒教のサブセットや道教のサブセットが作られれば、仏典をその立場から読む知識ベースとしてその場で生成できるということです。また同じことを他のテキストデータベースでも行えますから、CHISEを経由してあるデータベースから別のデータベースへと渡っていくことが、個々のデータベースの実装の仕方が同じであろうがなかろうが、可能になります。ダブリンコアみたいな感じですか。
こうしたかたちでのメタデータの実装は、SATのテキストデータベースのもっとも一般的な利用法として想定されるテキストを読むという行為をより豊かにしてくれるのではないかと思うのですが、いかがでしょうか。

*1:http://www.l.u-tokyo.ac.jp/cgi-bin/report.cgi?mode=2&id=163

*2:http://21dzk.l.u-tokyo.ac.jp/SAT/