2008年10月16日
アダムスキーの「生命の科学」と「テレパシー」の対訳プロジェクト
アダムスキー全集のテキストファイル化に加えて、「生命の科学」と「テレパシー」の英文対訳データベースを作成している。「生命の科学」は昨年終わって、今は「テレパシー」を進めている。
日本語訳はもちろん、久保田八郎氏の訳だが、英語の原文と照らし合わせると、別な意味が見えてくる場面も多々あるので、新しい発見がある。
この作業も、Scansnapというドキュメントスキャナとパナソニックの「読取革命」というOCRソフトのおかげで、効率よくできた。英文の場合は、日本語よりも文字が少ないので、驚くほど認識率が高く、誤認識はほとんどなかった。日本語は以前、テキストDB化したファイルがあったので、英文と日本語文を1センテンスずつに分解してセットにする作業だけでよい。
センテンスの分解は、テキストエディタ(秀丸エディタを使用)の置換機能で、正規表現を使った。
英文の場合は、「ピリオド」を「ピリオド + 改行マーク」に置き換えて、2文字以上の連続する空白を除去するだけでほぼ完了である。日本語の場合は、「。」やカギカッコを同様に処理すればよい。
今は、英語の原文と、久保田八郎氏が訳した日本語文しか対比できないけど、できればこれに加えて、その他の翻訳者の訳や、自分自身の訳も加えていった方が理解が深まると思う。
「テレパシー」が終わったらぜひ、「宇宙哲学」も対訳版を作りたいと思う。前半の方で、日本語だと意味が分からない箇所があるので、ぜひ原文を見てみたい。
残念ながら私は原文を保有していないので、それが手に入ったら、作業を進める。
安くて便利なETC
私はめったに高速道路を走らないので、ETCは必要ないと思っていた。
でも今年の4月に、高速道路のホームページで、ETCのらくらく導入キャンペーン(20万台限定。5千円の補助)というのを見つけ、1万円以下だったら導入してみようという考えになった。ゴールデンウィークの時点で既に、あと10万台となっていたので、急ぐことにした。
そして、近くのイエローハットに行って、ETC車載器を見ると、一番安いのが1万5千円くらいだった。もっと高いものもあるけれども、これこそ単機能で安い方がいいので、迷うことはなかった。
ぎりぎり1万円くらいなので、買おうと思って店員に声をかけてみると、
「あの補助は、2年以上の分割払いにしないといけないので、金利を考えると、ぜんぜん得じゃないです。しかも、面倒な書類を書かなければいけないので、普通に買った方がいいです」と言われたので、急に買う気がなくなった。
本当に得じゃないのかな?と気になったので、楽天で「ETC」を検索してみたら、
「【Panasonic:CY-ET807D】 らくらく導入キャンペーン適用 セットアップ込み! ¥1,572円(税込)」
というのがヒットしたので、それを開いてみたら、「まんてん屋」というお店だった。
これなら、安いし、お得だ。イエローハットで1万5千円で売っていたものと同じ機種だった。
結局、送料を含めても ¥2,280円 しかかからなかったので、楽天のポイントを使って買った。2年後に、あと10円を払うことになっているので、2年以上の分割払いという条件はクリアしている。
問題は、取り付けであるが、私のようなシロウトが取り付けを行うのは危険なので、シガーライターから電源を取るケーブルを、ヤフーオークションで500円くらいで購入した。ETCは、高速道路に乗る時だけセットすればよいので、これで十分である。
さて、ETCの魅力は、高速道路の割引サービスであるが、先月、東名高速道路の厚木から御殿場まで往復したら、通常だと片道1400円(往復2800円)かかるはずなのに、それが半額になっていたので、驚いた。通勤割引ということで、朝と夕方は50%になるらしい。首都高速道路でも、日曜日は2割引になっていたので、あっという間に、元が取れてしまった。
残念ながら、今年度の「らくらく導入キャンペーン」は6月6日で終了してしまったようだけど、「まんてん屋」なら、今でも¥6,480円(税込)で売っているので、それでも安いと思う。
東名高速道路を何回か往復すれば、すぐに元が取れるし、料金所でいちいち止まって、小銭を探す手間にくらべれば、安いものである。
2008年10月14日
アダムスキー全集のテキストDB化のつづき
今から15年くらい前に、新アダムスキー全集(中央アート出版社)の9巻分の書籍をパソコンのOCRソフトでテキストデータに変換し、フリーワード検索ができるようにテキストDBを作った。
当時のPCは、OSはWindows3.1で、OCRソフトの性能も良くなかった。見開き2ページを2~3分かけて文字認識しても、誤認識だらけなので、訂正がたいへんだった。夜、1日2時間くらいかけても、せいぜい20~30ページしか進まないなかで、あれだけの膨大な量を実行したのは、自分でも驚きである。
作成したテキストDBは、当時は、「知子の情報」(テグレット)という、MS-DOSの時代からあるソフトで使用していたが、10年くらい前から自宅サーバーでWEB検索して使うようになった。当時のPentium2のサーバーだと、1回の検索に5秒くらいを要したけど、Pentium3の時代になってようやく待ち時間がなくなった。
アダムスキー全集のテキストDB
http://www.adamski.jp/adamski/search.htm
さて、いまだに、このアダムスキー全集のテキストDBはとても便利で、有意義なものだと実感して使い続けているが、第9巻までしか対応していないことが唯一の欠点である。その後、アダムスキー全集は2冊ほど増えて、第10巻、別巻に加えて、第11巻と第12巻が登場している。
そろそろこれに手をつける時期だと思っている。技術の進歩は、どうだろう?
まず、OCRソフトの方は、15年前に使用していた「AutoType」シリーズは会社ごと消滅していたので、他のを探すことにした。体験版をいくつか試してみたところ、15年前にもあった「読んdeココ」というソフトは最新バージョンでも誤字が多くてダメだったけど、パナソニックの「読取革命」というソフトは、信じられないくらい認識結果がよくて、アダムスキー全集の文字は99%くらい正しく認識した。しかも、フォルダ監視機能があって、画像ファイルを入れると自動的に認識してくれるので、ほぼ全自動で本一冊をまるまる認識してくれた。もちろんそれに先立って、本を1ページずつ切り裂いてScanSnapというドキュメントスキャナで一括読取し、PDFファイルから一気に1枚ずつの画像ファイルに出力するというプロセスがあったのだが、とにかく昔とは比べ物にならないくらい、効率的に進められた。
それでも15年前は苦労したけれども苦労したなりに、得られるものもあった。あの当時に、そこまで苦労しても欲しかったのがこのテキストDBだったのだから、得られた喜びは今以上だったのだ。
さて、現段階では、第10巻、別巻、第11巻、第12巻の4冊に対して、1ページずつOCRで自動認識したファイルが1000ページ以上存在しているけど、まだ誤字チェックをしていない。認識率はよかったけど、無駄な改行マークが入っているし、時々誤字もある。それらをこれから時間をかけてゆっくり構成して、現在のテキストDBにマージすればできあがりである。来年中にできあがればよいと思う。
誰か手伝ってくれる人がいれば、完成は前倒しできるけど、そこまでする人はいないだろう。結構、たいへんな作業だからである。でも、15年前の苦労にくらべると、何と楽な作業だろう、と実感する。今回は、作業用の専用のWEB画面を作った。

9-14 (金) 11:33 by daimaru-go
サーバーの乗せ換えメモ
8-23 (土) 00:21 by Shunichi Hosono
インクジェットプリンタがこわれた(3)
2-11 (土) 00:03 by スターダスト
Raq550サーバーで cce が起動しない問題が解決!
1-21 (土) 20:46 by スターダスト
3本指ダウジングの活用
1-21 (土) 20:44 by ありがとうございました^^
ドメインの登録者情報は業者名にしない方がよい
3- 3 (金) 08:06 by Shige!
Windows Management Instrumentation (WMI) 情報の修復
5-26 (月) 10:57 by 薫
お風呂の中で書いたメモ(2)
6-17 (木) 22:48 by Shunichi
2004年6月9日 ボイスメモの欠片
6-21 (月) 14:59 by nori
メルマガ初挑戦
6-10 (木) 13:27 by nori
インクジェットプリンタがこわれた(2)
6- 9 (水) 10:25 by noriko
D503i
6-30 (水) 22:13 by Shunichi
Network Solutions のドメイン更新トラブル(2)
1-13 (日) 13:41 by Shunichi