タイトルなし

前回、どのような基準で仮想環境を選択したか、を記載していますがvSANを否定するつもりはありません。出来るだけメンテナンスフリーでないと手が足りないのでアップデートの頻繁にあるvSANはうちの環境では選択できない、というだけのことです。vExpertが言ってはいけない気がしますが、vSANにするなら実際の利用者に話を聞いている限りでは運用時数が少ないとはいえ、Nutanixのほうがいい気もします。後の課題としては、SSD仕入れ先を一社に絞って安く仕入れているメーカさんの発表前だったのですが某社のNutanixも見させてもらいましたが、価格がちょっと高いのがネックで少々導入しづらかったイメージです。ひょっとしたら今ならSSD単価が下がったメーカさんだともう少し状況が変わるかもしれませんが、うちの環境では以前に某ソフトでストレージ間ミラーリングした仮想デスクトップ環境でトラブル頻発(ストレージサーバの電源抜いたらサーバが落ちて片肺がまるっとすっ飛んだ、等)したせいで、上長が毛嫌いしてしまっているので残念ながら選択にすら上げさせてもらえないでしょう。
Nutanixのハードを長期検証させて欲しいという思いと抱えている仕事量の天秤が心にのしかかりますorz

最近ではAWSとvCenterというのが専ら話題に上がるキーワードなので、今更だと思いますが、AWS Direct Connectを利用する予定があります、、とは言っても、AWS専門にしたSIerに要件伝えて構築してもらう形で後は初歩的なネットワークの設計、例えばどこでNATするとかロードバランサ入れるだのサーバ追加方法どうするか、とかそういう話に終始すると思います。

さて、最後にUserCon2018で『FC-SANでベンダに組んでもらったが、ストレージがマルチパスではなく、シングルパスになっていて遅くてどうしようもなかった』という話を聞いて、2年前に『ユーザによるVMware View for IAサーバ構築ガイド』というタイトルでパフォーマンスチューニングの仕方や構築時の注意点とか纏めていたのを思い出しました。
精査は必要ですが、順番に載せようと思います。

NetAppでバグ引きました

利用中の去年導入した仮想サーバ基盤はコンバージドインフラなわけですが
NetApp A300/200(ONTAP9.1P5)でBug#1026931 : :PCI error triggered from uncorrectable ECC memory error condition on CNA portを引きました。

配線のないポートもCNAポートになっていたので、発生確率を下げるためにFCポートモードに変更し、とりあえずコントローラの戻しだけをまず実施しました。
問題はコントローラの戻しだけでも2-3分程度の通信断が発生し、ファームアップでも同じく発生するとのことで、ストレージの集約度が上がるほどメンテナンス時間が短くなるため、ファームアップまでは簡単にはできない状況です。

このため、メンテナンスウィンドウを広げるためにフルSSDRaidを組んだESXを増設する事にしました。もちろん今回はこのメンテのためだけではなく本社にある古いサーバを仮想化し、その上でESXごと移設することも目的としています。しかしながら、正直、この方法を導入から1年で実施しなければならない状況になると思っていませんでした。ですが、ESXにSSDの環境を用意する事で、通常はこのSSD環境でデータ抽出などのSQL実行環境として利用し、ストレージコントローラのメンテがどうしても必要な場合にはデータ抽出用の環境を停止&ストレージvMotionの上で、メンテナンスウィンドウ内に停止できないシステムをこのSSD環境にvMotionするという方法で、ストレージ2セット購入するほどのシステム冗長性が求められないのであれば、アリだと思います。

SSD入りESXを初めから入れれば良いじゃない、というツッコミはナシでお願いします。導入コスト的に厳しいのですよ。

ちなみにコンバージドインフラ導入に関しては、FC-SAN構成、フルSSDのNutanix、vSAN、コンバージドインフラと検討し、
FC-SAN構成(安定性◎、導入期間×、導入コスト×、増設コスト×、技術は枯れている)
フルSSDのNutanix(安定性…は良さそう◎、導入期間◎、導入コスト△、増設コスト×)
vSAN(安定性…話を聞いている限り疑問がある△、導入期間◎、導入コスト◎、増設コスト◎)
コンバージド(安定性○、導入期間○、導入コスト▼、増設コスト○、要求技術レベル:超高)
といった、評価でした。
vSANやNutanixは入れて運用していないので判断しかねますが、基礎技術的には簡単だと思えます。
コンバージドは入れてからの感想ですね。最低限MTU9000化を全てのESXのNICNFSストレージで行う事さえ行えば基本的な性能は普通に出ますが、その先までやるかどうか、Oracleのクエリもかなり特殊な物だけのようでESXのパラメータ変更が必要のようですので。

後は、FlexpPodでFabric InterConnectとポートを増設するためのFabricExtenderとありますが、正直この二つはNFSアクセス速度が出ないなどの問題が出た場合に、切り分けが難しいので別の物のほうが良いと思います。

vMotionが掛からない

11月から毎月3-5日程度の出張と深夜メンテの繰り返しで正直余裕が全くありませんでした。
何でしょうね、11月は台風22号の最中に宮崎、長崎と出張して宮崎で飛行機欠航&JRもNG、しょうがなく長距離バスに乗ろうとしたら目の前で行ってしまって、乗り継ぎ便にしたら乗り継ぎ場の4-5キロ手前で事故渋滞で予定便に乗り継げず、結局8時間程度移動に掛かったりと言いたい事はチョモランマより高くあるような出張が続いていました。

 

さて、本題。
先日Horzion6.2.3環境でVDIが起動しない症状が発生しました。
※この先の操作は、vCenterの設計を考慮すると問題はないはずですが
 必ずしも解決を保障しませんし、2次災害に繋がっても責任は持ちかねます。
 必ず自己責任で実施してください。

IPMIのログが溜まるせいで、ESXが正常に動作しなくなるというのが主原因で
再起動が必要になります。
前回は、メンテナンスモードに入れて再起動できましたが、今回はメンテナンスモードに入れようとしても、入らないという状況でした。
サポセンに問い合わせはしたものの、もう少し詳細調査した結果、VDIの電源ON状態ではvMotionが掛からない、またシャットダウン後も同じくvMotionが掛からないという状態でした。

このため、シャットダウンしたVDIをvSphereからインベントリから削除(ディスクから削除をしないように!)で障害の発生したESXから削除し、データストア上でvmxファイルを右クリックで再登録してVDIの電源をONする事で復旧させられました。

また、今回の症状でvDSとVDIとの接続情報に不整合が発生したようで50台程度のVDIのvNIC付け直しが必要になりました。vDSのVLAN変更では改善せず、vNIC自体を付け直さないと接続が回復しませんでした。

更に、今回の件の影響なのかわかりかねますが、DeepsecurityのManagerサーバがvNIC付け直しを行ったVDIを認識させられず、結局DeepSecurityのmanagerとRelayの再起動が必要になりました。

今年で5年目に入りますが、VDI1000台(ESX18台、平均実稼動5-600台)、DeepSecuirty、3年目でHorzionを6.2.3にアップグレードし、4年目よりLinkCloneを利用し始めましたが、DBのクリーンナップとShurinkを定期的に実施できないのであれば、VDI環境用のDBサーバは1台で運用せず、vCenter用、ConnectionServerのイベント、DeepSecurityと3つに分けないとキューが溜まって上記の症状が発生するように見受けられます。

DBを分けるか、定期クリーンナップ&Shurinkかを導入時に検討が必要だと判断します。
これらについては今後検討します。

 

USBのNICを利用したHorizon Clientの利用

先日ユーザ会の会員の方からの問い合わせでWindows7のノートPCにHozion Clientを入れて、USBのNIC経由でVDIを利用したところ2時間程度で画面が真っ黒になるという問い合わせがありました。

症状としては、真っ黒になった後にNICの抜き差しをすると正常に接続できるようになるという事だったのでNICの省電力対応のチェックを外してどうなるかを切り分けてもらい、それでも改善しなかったので別NICを試したかを確認したが、既に実施済みということでUSB NIC依存ではなく、ノートPC側の問題というところまで切り分けました。

その後にデバイスマネージャのUSBの電源管理(例えば、Generic USB Hubのプロパティの電源の管理タブ)にもNICと同じく電源管理の『電力の節約のために、コンピュータでこのデバイスの電源をオフにできるようにする』のチェックを外す必要があるようです。

O365の認証関係

以前、某メーカの営業の方がOffice365の認証はプロキシ除外に入れなければならないが除外サイトが増えるのを製品側で常時チェックしてアップデートするという話がありました。これでそのサイトを調べたところ(要するにうちの環境では利用していないのです)、以下のURLだということが分かりました。
 https://support.content.office.net/en-us/static/O365ipaddresses.xml

で、製品でそのURLに登録されているサイトをプロキシ除外に登録すれば、その製品を導入しなくても実装できるなぁ、と思っていましたが自分で使わないのにスクリプト作るのめんどいなあ、と思って更に調べたところ以下のTechNet記事を見つけました


Download and convert the O365IPAddresses.xml file to a custom PowerShell object

https://support.content.office.net/en-us/static/O365ipaddresses.xml

動作確認まではちゃんとしてないのですが、一応それっぽいのが出るところまでは。。。

これがあれば、Proxy.pak保存先かどこかで実行して定期的に更新すれば何とか、という感じではないでしょうか
 

イライラしてやった後悔はしていないが公開する(Win10のRDP)#2

もう一点、Active Directoryにユーザを作成しログイン先制限を掛けた。対象のサーバのホスト名(NETBIOS名)を入れて接続するとなぜか繋がらぬ。ログイン制限をはずすと繋がるので接続元のPCのホスト名を追加する、、、繋がる。解せぬ

イライラしてやった後悔はしていないが公開する(Win10のRDP)

パケットキャプチャまではしないで解決法見つけてしまったので正確な情報かまでは保障しませんが、某社が提供するWindowsに設定するVPNサービスを新規取引の業者に提供する際のお話。

検証サーバ(Windows2012R2で構築し、業者に渡すためVPN接続テストをテザリングとWindows10で実施したところ、やけにリモートデスクトップ接続が切れる。今回の検証サーバは若手にデプロイさせた物だったので検証サーバの基本設定を再チェック。
結果、1つ目はNICの電源管理設定が漏れていた。テンプレ修正すればいいのだが忙しすぎて忘れてたわけで。。。

頻度はかなり下がったものの、いまだに1分おき程度でバツバツ切れるのでまずは通信の安定を見るため、接続元のWindows10からPing連打しつつ状況を見るが、特段極端な遅延もパケロスもないのに『切断しました、再接続します』と出るのでRDPクライアント周りだと絞って、まずはサーバ側を見ることにする。

ローカルポリシをチェックするため『gpedit.msc』で起動し、サーバ側では再接続設定や接続の確認をN分おきに実施するなどがあるが効果はなく、結局RDP8が原因と判断しリモートデスクトップクライアントのポリシーにあるUDP通信の無効で解決しました、詳細は以下のとおり。RDP8からUDP優先接続みたいですね、これ。

1.gpedit.mscを実行
2.以下の順にツリーを開く
  ローカルコンピュータポリシ>コンピュータの構成>管理用テンプレート
  >Windowsコンポーネントリモートデスクトップサービス
  >リモートデスクトップ接続のクライアント
3.画面右にある『クライアントのUDPを無効にする』を開いて有効にチェック