2007年12月18日火曜日

全文検索が可能か

前回の話題に続き、御伽草子の「全文検索」を考えみたい。結論から言えば、この謳い文句を顔面通りに実現できるまでには、かなりの道のりがあるものだと思う。

検索とは、意中の言葉から出発して、特定の資料群から用例を見出すことを言う。これは、たとえば現在の新聞記事や小説などを対象に、地名、人名や語彙を探すとなれば、とても分かりやすい。しかしながら、対象が御伽草子となれば、事がいっぺんに難しくなる。まずここには文字の違いということが横たわる。いうまでもなくオリジナル御伽草子は、いわゆる変体仮名によって記されている。

変体仮名と今日の仮名との違いはどこにあるのだろうか。すぐ浮かんでくる答えは、変体仮名のあの、書写する人の勢いや筆遣いなどによる、さまざまな文字の形かもしれない。しかしながら、両者の根本的な差は、一つの音節をいくつの文字で表わすかにある。現在の仮名は、あくまでも一つの音節には一つの文字、対して変体仮名の場合、たいてい二つ以上の、時には十近くの文字が当てられる。それもあくまでも音を表現するものであり、意味による使い分けなど認められない。分かりやすい例を挙げてみよう。右の図(白百合女子大学所蔵『伊吹山酒顛童子絵巻』より)に、「酒呑童子」のことを「しゅてんたうし」と書く。「し」は「志」「之」という二つの字体をもつ。

古典文学研究の第一歩は、したがってまずこの変体仮名によって書写された文章を現代の文字表記に置き換えることから始まる。いわゆる翻字あるいは翻刻という作業だ。簡単に想像がつくように、一対一という置き換えでは済まない。加えるに、文字遣いという問題が絡んでくる。今の例では、まず「しゅてんたうし」「しゅてんとうし」「しゅてんどうじ」といういくつかの可能性が出てくる。しかもたとえ最後の案でも、仮名のみの文章でけっして良くやすくなく、漢字を当てることが望まれるようになる。そうなれば、「酒呑童子」か「酒飲童子」なのか、違うレベルの考察や考慮によって決めなければならない。もちろん一つの方針を取るということは、同等に可能な表記を切り捨てることを意味する。

そこで、御伽草子の検索とはなにを対象としたら良かろうか。古典の画像を持ってきてもおそらく意味がない。第一、検索の出発点としてのキーワード入力が難しい。現代表記の言葉を用い、一つのキーワードに対して、上記すべての可能性のものを対象として検索するということは、不可能ではないが、どのような構造のデータベースが必要となるだろうか。しかも場合によっては、以上の文字の違いこそ大事で、それを対象とする検索にも対応すべきだとのことも忘れてはならない。

御伽草子についての研究は、いまだ一世紀も満たない。かなりの成果が積み重なっているが、それでもすべて作品が翻刻されるまでにはとても到達していない。その翻刻は、これからも自動生成ではなくて、人間の手によって一字一字と行われていくことだろう。その成果が、「全文検索」とすぐにでも直結してもらいたいというのは、研究者ならだれもが願っていることに違いない。それがはたしてどのような道のりを経るのだろうか、一人ひとりの研究者としてなにができるのか、真剣に考えたいテーマである。

なお、電子メディアについて三回ほど書いた。つぎもこの話題にしたい。このことを考えさせてくれたのは、明日に予定されているある大学授業でのゲスト講義だ。そのタイトルも「マルチメディアと絵巻」と予告した。

白百合女子大学所蔵貴重書『画像』データベース

0 件のコメント: