Raq550サーバートラブル

 先週、Raq550サーバーに突然アクセスできなくなった。
 サーバー障害なので、業者さんに再起動を依頼したら、迅速に対応してくれたようなのだが、状況は改善されず、しつこく再起動の依頼を繰り返した。
 ところが返事は、「サーバーは無事に稼動していてオンライン上にある」ということだったので、それ以上の対応をしてくれる見込みはない。実際、PINGも通らず、あらゆるサービスが利用不可能だったのでそのことを伝えても、返事は変わらなかった。
 もしかしてと思って、以前のトラブルの時に放棄した同じネットワーク上にあるサーバーにtelnetでログインして、PINGを試してみたら、サーバーが生きていることを確認することができた。
 そこで、telnet上でさらにtelnetコマンドを入力して接続してみて、接続に成功した。

 さっそく、「netstat -rn」コマンドでルーティングを表示して、2つのサーバーの設定を見比べてみたら、問題のサーバーにはデフォルトゲートウェイとローカルループバックの2つの行が消えていることに気づいた。
 とりあえず、デフォルトゲートウェイのコマンドを入力してみたところ、インターネット上でPINGが通り、普通にSSHでログインできる状態になった。

 でもそれで解決ではなかった。WEBサーバーが起動しないのである。業者さんによれば、このサーバーはもともと「Perl 5.6」なのに「Perl 5.8」がインストールされたために動作しなくなっているのでOSをリストアした方がよいとのことだった。
 でもそれは違う。きちんとPerlのパスは元に戻しているのでもともと問題なかったのである。もう業者のサポートを期待できず、自力で解決するしかないと悟った。

 まず、「 /etc/rc.d/init.d/httpd restart 」のコマンドを起動して、WEBサーバーを再起動したところ、httpd.conf の 410行で syntax error が出ていた。
その行には

#

という記述があった。
 オリジナルの設定ファイルと見比べてみると、ここにコメントがあることが間違いであることが分かった。どうやら、業者さんが設定をいろいろ変えてコメントアウトして試行錯誤してくれたらしく、httpd.conf ファイルのコピーがいくつかあった。でもとうとう諦めて、コメントをつけたままにしてしまったらしい。

 結局、httpd.conf ファイルの中の、で囲まれた部分を数十行削除してみたら、なんとかWEBサーバーは動作するようになった。

 とりあえず仮復旧はしたが、まだ前途多難である。

・再起動するとデフォルトゲートウェイの設定が消える
 (/etc/sysconfig/network の設定は問題ない)
・cceが起動しないので、管理画面が開けない
・15分に1回、「システムの状態に関するお知らせ」の警告メールが来る