NetAppでバグ引きました

利用中の去年導入した仮想サーバ基盤はコンバージドインフラなわけですが
NetApp A300/200(ONTAP9.1P5)でBug#1026931 : :PCI error triggered from uncorrectable ECC memory error condition on CNA portを引きました。

配線のないポートもCNAポートになっていたので、発生確率を下げるためにFCポートモードに変更し、とりあえずコントローラの戻しだけをまず実施しました。
問題はコントローラの戻しだけでも2-3分程度の通信断が発生し、ファームアップでも同じく発生するとのことで、ストレージの集約度が上がるほどメンテナンス時間が短くなるため、ファームアップまでは簡単にはできない状況です。

このため、メンテナンスウィンドウを広げるためにフルSSDRaidを組んだESXを増設する事にしました。もちろん今回はこのメンテのためだけではなく本社にある古いサーバを仮想化し、その上でESXごと移設することも目的としています。しかしながら、正直、この方法を導入から1年で実施しなければならない状況になると思っていませんでした。ですが、ESXにSSDの環境を用意する事で、通常はこのSSD環境でデータ抽出などのSQL実行環境として利用し、ストレージコントローラのメンテがどうしても必要な場合にはデータ抽出用の環境を停止&ストレージvMotionの上で、メンテナンスウィンドウ内に停止できないシステムをこのSSD環境にvMotionするという方法で、ストレージ2セット購入するほどのシステム冗長性が求められないのであれば、アリだと思います。

SSD入りESXを初めから入れれば良いじゃない、というツッコミはナシでお願いします。導入コスト的に厳しいのですよ。

ちなみにコンバージドインフラ導入に関しては、FC-SAN構成、フルSSDのNutanix、vSAN、コンバージドインフラと検討し、
FC-SAN構成(安定性◎、導入期間×、導入コスト×、増設コスト×、技術は枯れている)
フルSSDのNutanix(安定性…は良さそう◎、導入期間◎、導入コスト△、増設コスト×)
vSAN(安定性…話を聞いている限り疑問がある△、導入期間◎、導入コスト◎、増設コスト◎)
コンバージド(安定性○、導入期間○、導入コスト▼、増設コスト○、要求技術レベル:超高)
といった、評価でした。
vSANやNutanixは入れて運用していないので判断しかねますが、基礎技術的には簡単だと思えます。
コンバージドは入れてからの感想ですね。最低限MTU9000化を全てのESXのNICNFSストレージで行う事さえ行えば基本的な性能は普通に出ますが、その先までやるかどうか、Oracleのクエリもかなり特殊な物だけのようでESXのパラメータ変更が必要のようですので。

後は、FlexpPodでFabric InterConnectとポートを増設するためのFabricExtenderとありますが、正直この二つはNFSアクセス速度が出ないなどの問題が出た場合に、切り分けが難しいので別の物のほうが良いと思います。