Under the hazymoon

http://researchmap.jp/nomurahideto/

ctext.orgのwikiパートは素晴らしいけども

先日もctext.orgのセミナーに参加した。漢籍の全文テキストデータベースで、これほどの大規模なものをwiki のように編集可能な形で公開したものは確かに初めて。中研院の漢籍全文資料庫と比較して、コラボの点での優位性を誇るのもわからなくない。
とはいえ元々、ctext.orgの評判はよくはなかった。データの信頼性が低いというのがその理由(cf.『電脳中国学入門』)。出処の分からないデータを使っていて、よくできた海賊版サイトの一つという位置づけだった。どこからか持ってきた簡体字のデータを機械的繁体字に変換して校訂がされてないとか。他にも中研院などから持ってきたのではと疑ってしまいたくなるものとか。
ロンダリングしているサイトはいくらでもあるし、古典に著作権はないから、倫理的に問題はあっても違法にはならない。数ある海賊サイトの一つなら、そのままでもまあよかったのだが、現在同サイトは公的な地位を確立しつつある。それなのに、そこを放置したままでよいのだろうか。
例えば『太平広記』は、公開されている版本画像に紐づけられているテキストは標点本のものだ。まさか自分で入力はしていないだろう。人文情報学の議論の一つに、論文でない情報の作成に対する評価の問題がある。その立場からすると、この問題は看過できないのではないだろうか。

もう一つ気になるというか、残念なことは、現状ではテキスト分析ツールが限定的にしか公開されていないことである。エコシステムとして考えると、分析ツールは公開されている方がよいように思う。
テキスト分析をしたい。→テキストがいい加減だ。→wiki 上でテキストを校正する。→分析ツールを適用。→ヽ(´▽`)/
というように、提供されているデータの信頼度の向上がテキスト分析の結果の精度を上げてくれるのだから、テキストデータベースと分析ツールの一体的運用は、wikiベースでの全文データベースにプラスに働くのではなかろうか。