アダムスキー全集のテキストDB化のつづき

  • 投稿日:
  • by
  • カテゴリ:

 今から15年くらい前に、新アダムスキー全集(中央アート出版社)の9巻分の書籍をパソコンのOCRソフトでテキストデータに変換し、フリーワード検索ができるようにテキストDBを作った。
 当時のPCは、OSはWindows3.1で、OCRソフトの性能も良くなかった。見開き2ページを2~3分かけて文字認識しても、誤認識だらけなので、訂正がたいへんだった。夜、1日2時間くらいかけても、せいぜい20~30ページしか進まないなかで、あれだけの膨大な量を実行したのは、自分でも驚きである。
 作成したテキストDBは、当時は、「知子の情報」(テグレット)という、MS-DOSの時代からあるソフトで使用していたが、10年くらい前から自宅サーバーでWEB検索して使うようになった。当時のPentium2のサーバーだと、1回の検索に5秒くらいを要したけど、Pentium3の時代になってようやく待ち時間がなくなった。

 アダムスキー全集のテキストDB
 http://www.adamski.jp/adamski/search.htm

 さて、いまだに、このアダムスキー全集のテキストDBはとても便利で、有意義なものだと実感して使い続けているが、第9巻までしか対応していないことが唯一の欠点である。その後、アダムスキー全集は2冊ほど増えて、第10巻、別巻に加えて、第11巻と第12巻が登場している。
 そろそろこれに手をつける時期だと思っている。技術の進歩は、どうだろう?

 まず、OCRソフトの方は、15年前に使用していた「AutoType」シリーズは会社ごと消滅していたので、他のを探すことにした。体験版をいくつか試してみたところ、15年前にもあった「読んdeココ」というソフトは最新バージョンでも誤字が多くてダメだったけど、パナソニックの「読取革命」というソフトは、信じられないくらい認識結果がよくて、アダムスキー全集の文字は99%くらい正しく認識した。しかも、フォルダ監視機能があって、画像ファイルを入れると自動的に認識してくれるので、ほぼ全自動で本一冊をまるまる認識してくれた。もちろんそれに先立って、本を1ページずつ切り裂いてScanSnapというドキュメントスキャナで一括読取し、PDFファイルから一気に1枚ずつの画像ファイルに出力するというプロセスがあったのだが、とにかく昔とは比べ物にならないくらい、効率的に進められた。
 それでも15年前は苦労したけれども苦労したなりに、得られるものもあった。あの当時に、そこまで苦労しても欲しかったのがこのテキストDBだったのだから、得られた喜びは今以上だったのだ。

 さて、現段階では、第10巻、別巻、第11巻、第12巻の4冊に対して、1ページずつOCRで自動認識したファイルが1000ページ以上存在しているけど、まだ誤字チェックをしていない。認識率はよかったけど、無駄な改行マークが入っているし、時々誤字もある。それらをこれから時間をかけてゆっくり構成して、現在のテキストDBにマージすればできあがりである。来年中にできあがればよいと思う。

 誰か手伝ってくれる人がいれば、完成は前倒しできるけど、そこまでする人はいないだろう。結構、たいへんな作業だからである。でも、15年前の苦労にくらべると、何と楽な作業だろう、と実感する。今回は、作業用の専用のWEB画面を作った。