(半分ぐらい作業メモみたいなモノです)
昨日帰ってからは気が気じゃありませんでした、ホントに。鯖落ちの原因が完全に想定外だったのです。
- 10/04 11:29:32 (日時は鯖のログから抜粋)
- ieee1394外付けHDD(4台搭載型)が認識しなくなり、そこに置いてあるWebデータが閲覧できなくなる。
- 10/04 15:14
-
仕事の休憩時間に自鯖にアクセスできないことに気付く。
ステータス403だったことから外付けHDDの認識不良とアタリをつけ「恐らくリブートで改善する」と考える。
本来リブートもリモートから出来るようにしてあるのだが、ログインするためのSSH鍵を持ってきていなかったため出来ず。ゆえに帰宅してからの対処となることを告知。Twitterにも、あちゃあという感じで書いている。1. 2
このときは、まだ、あんなことになるとは思ってもいなかった。
- 10/04 22:15:03
-
帰宅。早速リブートを施すも改善せず。この時点で少しあれっと。
外付けHDDのLEDをよく確認してみると明らかにランプの状態が異常。普段付かないはずのランプがオレンジの点滅になっている。速攻取説を開くと以下の説明だった。
- Blinking orange = Rebuilding RAID array
- Steady orange = One or more faulty drive(s)
さらにHDD Aのランプも赤の点滅。
- Blinking red = System starting up
- Steady red = Error or HDD is not installed
何故、RAIDのリビルドが動いているのか。なにかの拍子にRAIDのフォーマットがなされたのか? となるとまさか認識しないのは……データ、消失?
想定より大事であることに気付き完全にパニック。冷や汗が出て、吐き気を堪え、震える手を抑えてキーボードを叩き、2chにデータ消失の可能性を告知。Twitterにも。シャレじゃなく、本当に震えていた。
なお、頭の中では「素数を数えて落ち着くんだ」がエコーしてました。エコーするだけで数えるところまで行けませんでしたけど。
- 10/04 22:23:02
-
問題の外付けHDDはlvmという論理ボリューム上で管理していた。そこからlvm自体に問題が起きていないかと考え、いろいろ調べる。
そうしてlvmscanというコマンドを打ちこんだとき、該当パーティションがinactiveとなっていることに気付く。ぐぐってみるとinactiveから回復するには
lvchange -ay /dev/volume00/lv00
見事にパーティション自体は復帰した。……しかし。
- 10/04 22:44:38
-
復帰したパーティションをマウントしようとするも、まったくマウント出来ない。 まさかパーティションは生きているが中身が死んでいる、の、か……?
再び目の前が真っ暗に。 ぐぐった。必死でぐぐった。そしてxfs_checkというコマンドを知る。
早速xfs_checkで異常を調べると、中のログが壊れてるからxfs_repair -Lしろという指示が出てくる。それも打ちこむといくつかのファイルが壊れてたから掃除したよ、というログとともに、最終的にマウントが出来るところまで回復した。
- 10/05 未明
-
バックアップの開始。
lvmにはスナップショットを取るコマンドが存在する。それを利用しddコマンドでバックアップ……時間がかかる。しかもHDD容量が不足していることに気付く。だめじゃん。というわけで他のやりかたをいろいろ調べる。
と、同時に原因の検証。
結局データは生きていたのだから、RAIDのリビルドは行われていないはず。となるとHDD-Aになにかの異常が発生していたと考えるほうが自然な気がする。しかし取説の説明は
Steady orange = One or more faulty drive(s)
なのでランプ点滅でなく点灯でなければならない。……取説の誤植?と思ってTwitterにて発言。じゃあ、HDDを抜いてみたら、どうなるんだろう。それで点灯になるのなら取説は誤植でないってことだ、よ、な……
まだバックアップも終わっていないのに、かしょんとHDD一機を抜いてみちゃうバカがここに居るのだ。
結果、またHDDアクセスが出来なくなり、今度こそ、しかも人災で、データが飛んだかと……。目の前がぐるぐる回り、体がぴくりとも動かなくなる。運動した直後のように汗と息が荒くなる。そして何故か乾いた笑いが。
10分ほどして、ふらふらしながら起きあがり、わずかな可能性を信じて電源入れなおし。復旧。神に感謝する。
直後に某所で「安全作業月間」を見て思わず吹く。なんだこのタイムリーさ加減。あまりの衝撃に絵についてコメントを忘れたことに気付き、あとで追記したが……なんか取ってつけたようなコメントになってしまっていて、凹む。すいません、ピンチすぎて思考能力が完全に低下してたんです。
そして落ちついて今できること、やらねばならないことを考える。恐らく現在はHDD3機のうちの1機が死んだだけでさようならの状況。ゆえにやはりバックアップが最優先事項。が、しかし、結局xfsdumpでバックアップは取得できたものの、HDD-Bのランプも一瞬点灯したり、どうも動作が怪しい状況。バックアップがバックアップになってるか地味に疑問。油断はまったく出来ない。が、HDDを買ってこないとこれ以上の作業も出来ないため、3時ごろ、寝る。
- 10/05
-
結局心配すぎて何度も目が覚め、マトモに寝られなかった。そしてとりあえず生きているのを見て一安心。
店が開く10時まえに速攻HDDを購入しに外へ出ようとするが……いろいろ躓く。10月に入ってから、車上荒らしといい、なんか地味に酷い。そういえば去年も10月は大きな挫折を味わったんだった……。なんなんだ。
まあ負けずに名古屋まで行ってHDD購入。その帰り、食欲とかもう忘れているような状況だったが喰っとこうと考えて立ちぐい蕎麦屋でたぬきそば。と、「食券販売機におつり忘れたひといませんかー」……うお、俺だ!! ありがとうございます。困難な中、リアルで人のやさしさに触れる。悪いことばかりじゃない。悪いことばかりじゃないぞ。天一の日いけたし、仕事は最近順調だし、絵ちゃとか楽しかったし!!
そしてHDD交換。……あるぇ? ランプの状態変わらない、ぞ……。いやいや、これから変わるんだよ、これから……。
が、その後、ディレクトリの中身まで細かく見ていくと、なんかアクセス不能になっているところが……と思ったらまた認識しなくなった。だ、だめじゃん、だめじゃん!!
さらに交換し、取り外したHDDに異常がないかS.M.A.R.Tを調べたところ、まったくエラーなし!! え、ええええぇぇぇえ!!
結論、原因、不明。どうすんだ、これ。機械がマズいのか? でも2chの購入者多そうなスレにはまったく報告ないしな。そもそもやふおく購入だから責任の落としどころも自分にしかない。 ……まあ、とりあえずieee1394接続からUSB接続に変えてみよう。因果関係微妙だけど。あ、あとRAIDのリビルドきちんとしよう。
というわけで、現在、とりあえず交換してみたけど異常がなかったHDDへデータを全部移しているところです。しかし、疲れ、た、よ。もう。
- 管理人:データ全部移したあと、RAIDの再構成を行ない、現在もう一度RAID上へデータを移しているとこ。多分12時間ぐらい。lvmのおかげで外からはなにも影響しない。lvmすげー。
- 管理人:起きたらまた同じ症状。……ケースが悪いという結論に至らざるを得ない。あー。やふおくだからなぁ……買ったの……
- 管理人:データ退避させ、RAID5からRAID10に切りかえて再始動。こ、こいつ、これだけ痛い目に合わされたのに、まだこのケースを使う気か! 悲しい貧乏性。
- 管理人:そしてまた同様の現象が……。しかしRAID5のときと違ってリンクが途切れることはなかった。また丁度近くにいたので現象が起きる瞬間を見ることが出来た。なんか動こうとしてかこん、かこんと止まってる感じ。うー。別ケースに入れて問題ないんだから電源不足なのか? でもWD10EADS-M2Bって低消費電力がウリのひとつだぞ……。
- SIN:なんか接続できないな、と不思議に思っていたのです。復旧お疲れ様です。こういうときはスライムさんに包まれて癒されたいですね。
- かくに:管理人とは本当に大変なのですね。自分も幾度と無くお世話になっております。復旧、心よりお祝いさせていただきます。また今度何か描いて遊びに来ます。本当にお疲れ様でした。
- 管理人:SINさん> ジャーマネンさん来てくれないかなぁとずっと待ってましたが、来てくれませんでした……。悲しい。 かくにさん> 外側から見ると復旧してますが、内側ではまだ戦っていたりします。2chにも助けを求めてみましたが、レスこねぇ…
- 管理人:ようやく完全バックアップ完了。現在もリビルドランプ点滅状態だが、暫く様子を見てみようと思う。
- 管理人:解決ゥゥゥゥゥウ!! 赤点滅状態になってたHDD-Aを一旦抜いて、もういちど挿す > 赤点滅が消えてRebuildランプはそのまま、Accessランプ点灯 > 4時間後 Rebuildランプ消灯。元の状態に戻る! いやっっほおおおおおう!!
- 管理人:1. USB接続だとHDD取りはずしたときにリンクが切れていたが、ieee1394接続だとそんなことはなかった 2. Raid5だとディスク入れなおしをするとまたすぐに赤点滅になっていたが、Raid10はきちんとRebuild完走した。 1,2より、Hydra Super-S ComboはウチだとRaid10, ieee1394接続で利用するのが望ましい。
- R.K:本当におつかれ様でした。 きこういうときに、悪魔のような流動生物がやってきて囁くでしょう
- R.K:(すみません、キー操作間違えました) 悪魔のような流動生物がやってきて囁きます 「一度だけ癒してあげましょう。 貴方とHD どちらを癒します?」
- 管理人:ありがとうございます。しかしHDを癒すとは、一体……。
注:以下の条件に当てはまるコメントは無視されます
- 「http:」を含むもの
- 日本語を含まないもの(半角文字しかないコメント)
書いた日: 2009/10/05 21:36 カテゴリ:日常