ソフトウェアのダウンロード販売は、こちら。
ソフトのダウンロード販売
Personal Business
著者プロフィール
過去のホームページ
インターネット活用の入り口 
合資会社ユースマネージメント
ドメインサービス
レンタルサーバー

2008年10月16日

アダムスキーの「生命の科学」と「テレパシー」の対訳プロジェクト

 アダムスキー全集のテキストファイル化に加えて、「生命の科学」と「テレパシー」の英文対訳データベースを作成している。「生命の科学」は昨年終わって、今は「テレパシー」を進めている。
 日本語訳はもちろん、久保田八郎氏の訳だが、英語の原文と照らし合わせると、別な意味が見えてくる場面も多々あるので、新しい発見がある。

 この作業も、Scansnapというドキュメントスキャナとパナソニックの「読取革命」というOCRソフトのおかげで、効率よくできた。英文の場合は、日本語よりも文字が少ないので、驚くほど認識率が高く、誤認識はほとんどなかった。日本語は以前、テキストDB化したファイルがあったので、英文と日本語文を1センテンスずつに分解してセットにする作業だけでよい。
 センテンスの分解は、テキストエディタ(秀丸エディタを使用)の置換機能で、正規表現を使った。
 英文の場合は、「ピリオド」を「ピリオド + 改行マーク」に置き換えて、2文字以上の連続する空白を除去するだけでほぼ完了である。日本語の場合は、「。」やカギカッコを同様に処理すればよい。

 今は、英語の原文と、久保田八郎氏が訳した日本語文しか対比できないけど、できればこれに加えて、その他の翻訳者の訳や、自分自身の訳も加えていった方が理解が深まると思う。

 「テレパシー」が終わったらぜひ、「宇宙哲学」も対訳版を作りたいと思う。前半の方で、日本語だと意味が分からない箇所があるので、ぜひ原文を見てみたい。
 残念ながら私は原文を保有していないので、それが手に入ったら、作業を進める。

Posted by shunichi at 23:26 | Comments (0) | TrackBack (0)

安くて便利なETC

 私はめったに高速道路を走らないので、ETCは必要ないと思っていた。
 でも今年の4月に、高速道路のホームページで、ETCのらくらく導入キャンペーン(20万台限定。5千円の補助)というのを見つけ、1万円以下だったら導入してみようという考えになった。ゴールデンウィークの時点で既に、あと10万台となっていたので、急ぐことにした。
 そして、近くのイエローハットに行って、ETC車載器を見ると、一番安いのが1万5千円くらいだった。もっと高いものもあるけれども、これこそ単機能で安い方がいいので、迷うことはなかった。
 ぎりぎり1万円くらいなので、買おうと思って店員に声をかけてみると、
「あの補助は、2年以上の分割払いにしないといけないので、金利を考えると、ぜんぜん得じゃないです。しかも、面倒な書類を書かなければいけないので、普通に買った方がいいです」と言われたので、急に買う気がなくなった。

 本当に得じゃないのかな?と気になったので、楽天で「ETC」を検索してみたら、

「【Panasonic:CY-ET807D】 らくらく導入キャンペーン適用 セットアップ込み! ¥1,572円(税込)」

というのがヒットしたので、それを開いてみたら、「まんてん屋」というお店だった。
 これなら、安いし、お得だ。イエローハットで1万5千円で売っていたものと同じ機種だった。

 結局、送料を含めても ¥2,280円 しかかからなかったので、楽天のポイントを使って買った。2年後に、あと10円を払うことになっているので、2年以上の分割払いという条件はクリアしている。

 問題は、取り付けであるが、私のようなシロウトが取り付けを行うのは危険なので、シガーライターから電源を取るケーブルを、ヤフーオークションで500円くらいで購入した。ETCは、高速道路に乗る時だけセットすればよいので、これで十分である。

 さて、ETCの魅力は、高速道路の割引サービスであるが、先月、東名高速道路の厚木から御殿場まで往復したら、通常だと片道1400円(往復2800円)かかるはずなのに、それが半額になっていたので、驚いた。通勤割引ということで、朝と夕方は50%になるらしい。首都高速道路でも、日曜日は2割引になっていたので、あっという間に、元が取れてしまった。

 残念ながら、今年度の「らくらく導入キャンペーン」は6月6日で終了してしまったようだけど、「まんてん屋」なら、今でも¥6,480円(税込)で売っているので、それでも安いと思う。

 東名高速道路を何回か往復すれば、すぐに元が取れるし、料金所でいちいち止まって、小銭を探す手間にくらべれば、安いものである。

Posted by shunichi at 22:41 | Comments (0) | TrackBack (0)

2008年10月14日

アダムスキー全集のテキストDB化のつづき

 今から15年くらい前に、新アダムスキー全集(中央アート出版社)の9巻分の書籍をパソコンのOCRソフトでテキストデータに変換し、フリーワード検索ができるようにテキストDBを作った。
 当時のPCは、OSはWindows3.1で、OCRソフトの性能も良くなかった。見開き2ページを2~3分かけて文字認識しても、誤認識だらけなので、訂正がたいへんだった。夜、1日2時間くらいかけても、せいぜい20~30ページしか進まないなかで、あれだけの膨大な量を実行したのは、自分でも驚きである。
 作成したテキストDBは、当時は、「知子の情報」(テグレット)という、MS-DOSの時代からあるソフトで使用していたが、10年くらい前から自宅サーバーでWEB検索して使うようになった。当時のPentium2のサーバーだと、1回の検索に5秒くらいを要したけど、Pentium3の時代になってようやく待ち時間がなくなった。

 アダムスキー全集のテキストDB
 http://www.adamski.jp/adamski/search.htm

 さて、いまだに、このアダムスキー全集のテキストDBはとても便利で、有意義なものだと実感して使い続けているが、第9巻までしか対応していないことが唯一の欠点である。その後、アダムスキー全集は2冊ほど増えて、第10巻、別巻に加えて、第11巻と第12巻が登場している。
 そろそろこれに手をつける時期だと思っている。技術の進歩は、どうだろう?

 まず、OCRソフトの方は、15年前に使用していた「AutoType」シリーズは会社ごと消滅していたので、他のを探すことにした。体験版をいくつか試してみたところ、15年前にもあった「読んdeココ」というソフトは最新バージョンでも誤字が多くてダメだったけど、パナソニックの「読取革命」というソフトは、信じられないくらい認識結果がよくて、アダムスキー全集の文字は99%くらい正しく認識した。しかも、フォルダ監視機能があって、画像ファイルを入れると自動的に認識してくれるので、ほぼ全自動で本一冊をまるまる認識してくれた。もちろんそれに先立って、本を1ページずつ切り裂いてScanSnapというドキュメントスキャナで一括読取し、PDFファイルから一気に1枚ずつの画像ファイルに出力するというプロセスがあったのだが、とにかく昔とは比べ物にならないくらい、効率的に進められた。
 それでも15年前は苦労したけれども苦労したなりに、得られるものもあった。あの当時に、そこまで苦労しても欲しかったのがこのテキストDBだったのだから、得られた喜びは今以上だったのだ。

 さて、現段階では、第10巻、別巻、第11巻、第12巻の4冊に対して、1ページずつOCRで自動認識したファイルが1000ページ以上存在しているけど、まだ誤字チェックをしていない。認識率はよかったけど、無駄な改行マークが入っているし、時々誤字もある。それらをこれから時間をかけてゆっくり構成して、現在のテキストDBにマージすればできあがりである。来年中にできあがればよいと思う。

 誰か手伝ってくれる人がいれば、完成は前倒しできるけど、そこまでする人はいないだろう。結構、たいへんな作業だからである。でも、15年前の苦労にくらべると、何と楽な作業だろう、と実感する。今回は、作業用の専用のWEB画面を作った。

Posted by shunichi at 22:39 | Comments (0) | TrackBack (0)