HAだけじゃ足りません

VMUGでお話をしようと思っていたのですが、機を逃したお話をします。

昨年IAサーバで稼動していたOracleDBのサーバを専用クラスタ(Esx2台分)に移行しており、元の規模が小さいシステムだったこととコスト削減のためシングルサーバとしてゲスト作成されていました。

先日このESXサーバが購入8ヶ月でOS領域用のRaidコントローラが予兆なく故障し、ゲストOSは稼動し続けていたのですがvCenterからはESXもゲスト応答なしとなり、メンテナンスモードへの移行すら受け付けない状態となりました。当然、vMotionも掛からないためゲストOSをシャットダウンしてインベントリからの削除、稼動するESXで再登録しようとしたところ、それも受け付けませんでした。

このため、障害のあったESXで稼動する他のゲストOSもシャットダウンの上でESXをシャットダウンし、ESXをシャットダウンしましたがそれでも出来ずESXをvCenterから一度登録を削除することでインベントリから削除し再登録作業を行う事ができましたが、VMDKファイルレベルでの問題等もありました。

何がいいたいか?というとコスト削減のためにOracleクラスタを作成しゲストをシングルサーバで構築する場合に上記のようなトラブルを考慮し、Oracleクラスタ単位でメンテナンスウィンドウを最低2時間、出来れば4時間設ける事が重要です。

なお、このメンテナンスウィンドウは実作業としてvCenterからESXの切り離し待ち時間で1時間、ESXのシャットダウンに異常に時間がかかり20-30分程度、その後の起動チェックやVMDKファイルの修正で30分程度で最低2時間、ベンダの協力の下での対応の場合、ベンダの調査力なども関係しますので最低2時間程度は見たうが良いので合計4時間程度としました。