2012-07-11

QNAPで恐怖のエラーがぁぁぁぁああああ

知人のQNAPはiSCSIを構成しており、Hyper-Vの仮想マシンと物理マシンがそのiSCSIボリュームを使用している。 ある朝突然、それらのiSCSIボリュームにアクセスできなくなったと言う。「Hyper-Vマネージャー」を起動してみてみると、「仮想マシン」の一覧に表示されるマシンのいくつかに「一時停止 - 重大」と表示されている。 これらのマシンはみなiSCSIボリュームを使用しているものだ。
ブラウザでQNAPのシステムログを見ようとしても「Loading data. Please wait...」と出てくきて、先へ進めない。 仕方がないのでブラウザからQNAPを再起動しようと試みるもいつまでたってもシャットダウンしない。 またまた仕方がないので、QNAP本体の“POWER”ボタンを長押しして無理やり電源を落とす。次に再度“POWER”ボタンを押して起動を試みるも、

「SYSTEM BOOTING」

が本体ディスプレーに表示されたまま、10分ほど経っても起動してこない。「qnap system booting」や「qnap system booting forever」でググってみると、「ハードの故障だ」とか「PSU(Power Supply Unit)だ」とか面倒そうなことが一杯書いてあり、気分が悪くなってくる。 さらに仕方がないので、“POWER”ボタンを2回押して再起動。やはり、「SYSTEM BOOTING」が出てきて、起動してきそうもない。 上記の記事を丹念に読み始める。 どうみても簡単に直りそうもない、と絶望的な気分に陥りそうになったところで、チラっと本体のディスプレーを見ると、なんと!「SYSTEM STARTING...」(だっけな?)みたいなのが表示されており、狂喜する。 しばらくすると、ディスプレーからメッセージが消え、PINGも返るようになる、ブラウザからもアクセスでき、最後にiSCSIボリュームも復活して、Hyper-VのクライアントOSからもそれらを利用できるようになった。

それでログを見てみると、「[RAID6 Disk Volume: Drive 1 2 3 4] The file system is not clean. It is suggested that you run "check disk".」と表示されている。さらに「RAID MANAGEMENT」をクリックしてみると、「Synchronizing (0%)」と表示されている。 ところがこのSynchronizingが遅々として進まず。15時間が経過した午前2時過ぎに97%と表示され、この時点でiSCSIボリュームが再度使用不能になっていることに気づく。 この期に及んで、いくら待ってもSynchronizingは成功しそうにないことにやっと気づくが、とりあえず、朝までSynchronizeを走らせることにして就寝。 翌朝見てみるとやはりSynchronizingは97%のままで終わっていない。 24時間が経過しようとしてもまだ終わらない。


諦め気分でふとQNAP本体を見ると、4つの目のHDDのLEDが緑点滅から赤点灯に変わっている。
「RAID Management」の 「Current Disk Volume Configuration」 は、"RAID 6 Disk Volume: Drive 1 2 3"を示し、第4ドライブが表示されていない。24時間かかって、「やっぱりハードディスクか」とかなり確信を持つ。 念のため、今回の現象をQNAPのサポートにメールしてみると、「問題のハードディスクを取り外して、もう一度入れてみろ」というので、その通りにする。すると、本体のSTATUSが赤く点滅し、第4ドライブのLEDは緑に点灯。 以下のようなログが表示された。


2012-07-1016:13:11System127.0.0.1localhost[RAID6 Disk Volume: Drive 1 2 3 4] RAID device in degraded mode.
2012-07-1016:13:09System127.0.0.1localhost[RAID6 Disk Volume: Drive 1 2 3 4] Drive 4 removed.
2012-07-1016:12:59System127.0.0.1localhostDrive 4 plugged out.


Drive 1 2 3 のSynchronizing が無事終了するまでにさらに10時間程が経過。以下のような状態になった。

Current Disk Volume Configuration : Physical Disks
DiskModelCapacityStatusBad Blocks ScanSMART Information
Drive 1Hitachi HDS722020ALA330 JKAO1863.02 GBReadySCAN NOWGOOD
Drive 2Hitachi HDS722020ALA330 JKAO1863.02 GBReadySCAN NOWGOOD
Drive 3Hitachi HDS722020ALA330 JKAO1863.02 GBReadySCAN NOWGOOD
Drive 4Hitachi HDS722020ALA330 JKAO1863.02 GBDisk Read/Write ErrorSCAN NOWGOOD

Note that if you are going to install a hard drive (new or used) which has never been installed on the NAS before, the hard drive will be formatted and partitioned automatically and all the disk data will be cleared.

Current Disk Volume Configuration : Logical Volumes
Disk/ VolumeFile SystemTotal SizeFree SizeStatus
RAID 6 Disk Volume: Drive 1 2 3EXT43664.62 GB3023.18 GBIn degraded mode


かくしてディスク交換の止む無きに至り、Amazonから Segate ST2000VX000 を注文、待つこと2日でブツが到着。 いそいそとDirve 4を抜く。
Drive4を抜いた状態

調達した新ドライブをいれると、Rebuildが始まった。

15時間後、Rebuild無事終了。


【メモ】
  1. ディスクが中途半端に壊れると、その壊れかかったディスクを使用して、Synchronizeを行おうとする。 このSynchronizeはQNAPが完全にそのディスクが壊れていると認識できるまで、続行する。 問題は、この Synchronizeの過程で、iSCSIほかのサービスが異常中断し、ブラウザのQNAP管理画面からも、アクセスできない機能があること。
  2. 今回は原因特定に時間がかかり過ぎた。次回、HDDの障害が疑われる場合(の一案)→ cat /proc/mdstat を実行して障害HDDを特定→QNAPの電源を落とし障害HDDを抜き再起動→Synchronizingが実行される(十数時間)→新HDDを入れてRebuildする。
  3. SSHによるRAID状態チェック→こちら
  4. QNAPが完全にそのディスクが壊れていると認識した時点でSynchronizeは中断し、当該HDDのLEDには赤が点灯とする。このディスクが少ない状態(今回は4→3に減った状態)で、再度Synchronizeが実行される。
  5. HDD交換時は→ QNAP互換HDDリスト
  6. コンパクトで省エネ、比較的お手軽に導入できるQNAPのiSCSI。 が、一旦障害が発生すると復旧はかなり面倒になることも。 ググると、障害対応で苦労しているユーザが一杯いる。ただ、ここ(本社)のサポートはかなり秀逸だったりする。  Danny、謝謝。 

土屋

0 件のコメント: