アダムスキー全集のテキストＤＢ化のつづき

　今から１５年くらい前に、新アダムスキー全集（中央アート出版社）の９巻分の書籍をパソコンのＯＣＲソフトでテキストデータに変換し、フリーワード検索ができるようにテキストＤＢを作った。
　当時のＰＣは、ＯＳはＷｉｎｄｏｗｓ３．１で、ＯＣＲソフトの性能も良くなかった。見開き２ページを２～３分かけて文字認識しても、誤認識だらけなので、訂正がたいへんだった。夜、１日２時間くらいかけても、せいぜい２０～３０ページしか進まないなかで、あれだけの膨大な量を実行したのは、自分でも驚きである。
　作成したテキストＤＢは、当時は、「知子の情報」（テグレット）という、ＭＳ－ＤＯＳの時代からあるソフトで使用していたが、１０年くらい前から自宅サーバーでＷＥＢ検索して使うようになった。当時のＰｅｎｔｉｕｍ２のサーバーだと、１回の検索に５秒くらいを要したけど、Ｐｅｎｔｉｕｍ３の時代になってようやく待ち時間がなくなった。

　アダムスキー全集のテキストＤＢ
　http://www.adamski.jp/adamski/search.htm

　さて、いまだに、このアダムスキー全集のテキストＤＢはとても便利で、有意義なものだと実感して使い続けているが、第９巻までしか対応していないことが唯一の欠点である。その後、アダムスキー全集は２冊ほど増えて、第１０巻、別巻に加えて、第１１巻と第１２巻が登場している。
　そろそろこれに手をつける時期だと思っている。技術の進歩は、どうだろう？

　まず、ＯＣＲソフトの方は、１５年前に使用していた「AutoType」シリーズは会社ごと消滅していたので、他のを探すことにした。体験版をいくつか試してみたところ、１５年前にもあった「読んdeココ」というソフトは最新バージョンでも誤字が多くてダメだったけど、パナソニックの「読取革命」というソフトは、信じられないくらい認識結果がよくて、アダムスキー全集の文字は９９％くらい正しく認識した。しかも、フォルダ監視機能があって、画像ファイルを入れると自動的に認識してくれるので、ほぼ全自動で本一冊をまるまる認識してくれた。もちろんそれに先立って、本を１ページずつ切り裂いてＳｃａｎＳｎａｐというドキュメントスキャナで一括読取し、ＰＤＦファイルから一気に１枚ずつの画像ファイルに出力するというプロセスがあったのだが、とにかく昔とは比べ物にならないくらい、効率的に進められた。
　それでも１５年前は苦労したけれども苦労したなりに、得られるものもあった。あの当時に、そこまで苦労しても欲しかったのがこのテキストＤＢだったのだから、得られた喜びは今以上だったのだ。

　さて、現段階では、第１０巻、別巻、第１１巻、第１２巻の４冊に対して、１ページずつＯＣＲで自動認識したファイルが１０００ページ以上存在しているけど、まだ誤字チェックをしていない。認識率はよかったけど、無駄な改行マークが入っているし、時々誤字もある。それらをこれから時間をかけてゆっくり構成して、現在のテキストＤＢにマージすればできあがりである。来年中にできあがればよいと思う。

　誰か手伝ってくれる人がいれば、完成は前倒しできるけど、そこまでする人はいないだろう。結構、たいへんな作業だからである。でも、１５年前の苦労にくらべると、何と楽な作業だろう、と実感する。今回は、作業用の専用のＷＥＢ画面を作った。

コメントする