デジタルテキストの形式


活字テキストの単純なデジタル化

 一番簡単なのは、活字のテキストを、ただデジタル化した形式のもの。
 これは、元とした活字本文のまま、漢字と仮名が交じった形で、それがテキストファイルとして提供される。
 この形式のテキストは、使いづらい。特に、用例をこれで探すことは危険である。
 この形式のテキストにおける問題は、日本語が漢字・平仮名・片仮名の3種類の文字で表記されることとかかわる。
 ひとつの言葉、たとえば「歌」という語は、漢字で「歌」と書くこともあれば、ひらがなで「うた」と書くこともある。場合によっては片仮名で「ウタ」と書くこともあるかもしれない。また、漢字で「謌」と書く可能性もある。
 ここに問題がある。
 一つの文献内においては統一表記されているというならば、まだしも。実際には、同じ一つの文献の中において、これらが混在している場合が多い。しかも、それらの使い分けに法則性はない。
 とすると、ある文献において「歌」という語を検索しようとしても、それはほとんど不可能に近い。「歌」(漢字)で検索した場合、当然「うた」という用例は出てこない。「うた」と書かれている可能性に思い至って、それをも検索したとしても、もしかすると「謌」という用例がどこかに2例くらい存在しているかもしれない。たとえ実際には存在していなくても、いないということを確認できないのだから、その調査は信用することができない。

 複数の表記形態が入り交じった本文は、検索には不向きなのである。


標準化テキスト

 作品をデータとして使うためには、そのテキストの本文表記は一つに統一されていなければならない。
 どれかに統一されてさえいれば、平仮名でも片仮名でも漢字でもよい。
 国文学の研究対象となる文学作品は、いわゆる日本漢文を除くと、多くのものは漢字・仮名交じり文である。したがって、写本・版本を底本とするにしろ、翻刻(や校訂)された活字本を底本とするにしろ、それらをデジタル化する際には、デジタル化する者がいずれかの表記に統一しなければならない。
 元来やまとことばで書かれているものについては、平仮名に統一するのもそれほどむずかしくはない。
 やっかいなのは、元来やまとことばと漢語とを交えて書いた文体の作品である(実は中世以後そうした作品が主流を占めるのだが)。たとえば、平家物語をはじめとする軍記物語など。
 既に市販されているデジタルテキストが、和歌作品や平安朝の物語、あるいは漢文日記が主流であるのは、理由のあることなのである。
 しかし、主な作品をデジタル化したいという潜在的な要望は強いから、いずれ軍記類もデジタル化されるにちがいない。おそらくは、平仮名に統一する形でそれは実現されると思われる。

 なお、表記以外に、仮名遣いの統一という問題もある。
 底本のままでは仮名遣いが不統一だから、この場合も、検索ができないことになる。なんらかの仮名遣いに統一しなければならない。実際には歴史的仮名遣いに統一されることが多い。

 この形式のテキスト(標準化テキスト)は検索には都合が良い。しかし、読みやすさという点では問題が残る。平仮名の「ベタ」の形式のテキストのよみづらさは、誰もが知っていることである。


底本そのままのテキスト

 標準化本文の作成には、漢字の仮名化という段階と仮名遣いの統一という段階において、デジタル化する者の手が大幅に加わる。
 校訂本は、もちろん校訂者の解釈・判断が加わっている。
 単純な翻刻本文にしても、原本を現行の文字に直す際に、翻刻者の解釈が入っている。あるいは、無意識の誤りを混入させることもある。
 それぞれ程度に違いはあるが、以上の形式のテキストでは、本文のあり方そのものを研究することはできない。
 「文献学的」と大上段に振りかぶらなくとも、国文学研究の場合、ある段階において本文のあり方(本文の質)を問題としなければならなくなることは、少なくない。これは、「電脳式」の場合に限らず、従来の「紙と鉛筆」形式で研究をする場合にも言えることである。

 そこで、なるべく人の手の入っていないテキスト、漢字・仮名のあり方、仮名遣い、文字の配置など、原本を忠実に反映した翻刻本文、あるいは、原本の影印も、デジタルテキストとして望まれるのである。


3種類のテキストの統合

 読みやすさを重視すれば、翻刻してあって、しかも、漢字仮名交じりで、意味が取りやすいように整理してあるテキストが望ましい。
 検索のためには、すべて仮名(場合によっては漢字だけ)に統一した標準化テキストでなければならない。
 本文研究のためには、原本の体裁をそのまま残したテキストも欲しい。
 理想を言えば、以上の3形式の本文が揃っているのが望ましい。
 しかも、それらが統合されていて、相互に関連づけられていると使いやすい。
 また、著作権の問題などで、定評のある本文が使えないならば、デジタルテキストとその定評ある本文との相違についての情報が付してあれば都合が良い。

 デジタルテキストとしては、以上のような条件を満たしているものが期待される。
 そういう意味では、現在刊行中の国文学研究資料館データベース古典コレクションのシリーズは、理想に近いのではなかろうか。


←戻る