FlexPodが厳しいです。

昨年9月から(といっても納品の関係で構築開始は10月だったのですが)構築を開始したゲストOS領域としてNFSを利用したFlexPodですが、状況が芳しくありません。
なお、現職の環境はSIerのN社と下請けとしてU社系が仮想環境を構築してきたのですが少々前から参入したC社がノウハウあります!やります!ということでU社に代わり下請けに入り構築が始まりました。

10月末に基礎構築が終わりVDIを展開した時点で、デプロイ時のVMDKファイルのコピーに既存のSAN環境と比較し1.5倍の掛かっており、当初はNFSアクセスだからこんなものなのだろうか?と思っていました。しかし、実際にログインして利用してみると異常に操作感が悪く、とりあえず使い慣れたCristalDiskMarkを利用し、I/O測定をするとVDIとしての利用感に一番影響の大きいランダムリードが異常に悪い結果が出ました。

スクリーンショット類はまだ整理中ですが、既存SAN環境がランダムリード200程度出る(IOPS18k程度)のに対し、当初30前後か下手すると一桁が出るときもありました。明らかに異常だと判断しましたが、生憎DWH2セットのハードリプレースがあり、これに伴うフルクローンVDI1000台にインストールされたODBCソフトウェアセット3本を入れ替える作業込みで一人で行う必要があったため、ひとまず担当SEに任せざるを得ませんでしたので、状況からESX再インストールを検討するように支持をしました。この時点で担当SEのCisco/VMwareによるリリースバージョン認可が下りておらずサポートが受けられないという板ばさみがあり、構築が進みませんでした。※それ以外にもISOイメージに最新のドライバが組み込まれていなかった等、あまり考えられない問題ばかりが発生しました。

次の課題は、C社が弊社からのRFPや今後の展望を記載した資料を渡していたにもかかわらず要求事項(従来のSANと異なりNFSになるので差分を吸収できるSEの協力が必要)を理解していない事とそれが出来るSEがいないことが判明しで、私の手が空く1月まで放置になってしまいました。

詳細な情報についてはこれからまとめますが、FlexPodのパフォーマンスチューニングでここまで行った内容と抱えているトラブルに関してまとめます。

まず、BIOS関係についてですが、HPやLenovoDellのサーバであればBIOS設定でPower Managementの項目でハイパフォーマンスにすれば完了なのですが、UCSの場合は自作PC並みにCPUやメモリの項目が存在します。分かりやすいところでいけばHyper-Threadなどですね。これらの項目をひとつずつ精査する必要があります。また、NFSアクセスではVMware社のセールスSEも仰っていましたが、ストレージメーカの推奨値とVMwarenの推奨値があり。基本はストレージメーカの推奨値を優先するとの事。ここでいう値は、vSphere Clientで設定可能な各ESXの詳細パラメータになります。これとMTU1500から9000への変更がメインとなります。

上記の対応により、ランダムリードが20-30程度から140-150程度まで上げることは出来たものの観測した中での最大値の190を常時キープできるところまでは調整できていないため、調査を継続している状況です。このIOPSが伸びない状況ですが、測定中にCPU使用率が50%程度と低い場合に190近い値が測定され、100%近い場合は非常に低い値で出るという症状とESXの再起動を実施するたびに状況が変わる(ただしいい結果が出る確率は20%程度)ということからESXに何がしかの問題があると判断し調査を進めています。

実際、UCSのサーバではsyslog.logで以下のログ等の異常なものがかなりの頻度で生成していることも確認されていますので、VMのサポセンに問い合わせはしているものの最終的には再インストを視野に入れざるを得なかろうと個人的には判断しています。

2017-01-16T23:03:32Z sfcb-CIMXML-Processor[127805]: pam_succeed_if(sfcb:auth): error retrieving information about user 52ce06d9-5323-b432-cd03-9a4e550cee43 •ESX/ESXi 4.1 および ESXi 5.0 ドメイン メンバーとユーザー認証による ESX Admins AD グループの使用 (2074017) https://kb.vmware.com/selfservice/microsites/search.do?language=en_US&cmd=displayKC&externalId=1025569