業者さんのところにシンクラ見てきました。

これまで利用していた某社のシンクライアントの単価が上がりすぎて、今の職場では購入許可が出ず、他メーカも当たることになりました。
ということで、某赤いシンクライアントを出す某社の子会社様と取引があるので、お伺いして見てきました。Windows10 IOT自体は悪くないのですが、初期状態でユーザに触らせたくないアプリやWindows Search、Windowsキーが有効になっているせいで『ファイル名を指定して実行』が利用できてしまうなどの問題がある点に関して、提供マニュアルで利用不可に出来るか、開発側に確認して頂くようお願いしました。

管理ソフトに関しては、某社らしいデザインだったというイメージと説明いただいた方が管理者権限を持っていなかったので詳細までチェックできませんでしたが、他社の管理ソフトを逆に見て頂きました。シンクラですので最低限の機能があれば、いいんですよね。PC管理ほどの情報は不要だと伝わっていることを祈ります。

ゲストOSの作り方というのは

本年度頭に採用したK君、実はかなりやり手でこういう仕様でサーバ構築して!というだけで想定の8割がたの物を作ってくれるぐらいなのですが、そんな彼にヘンジン扱いされる今日この頃です。

やはり人によって性能差が出る物ですね、不思議な物です。
そんな彼に64bitOSのVDIを作ってもらったのですが、一応手順には『飛ばしても良いが推奨』と記載したデフラグを飛ばしたようで、画像操作系のソフトをインストールしたら異常に起動に掛かるわけです。初め認証かなにかのせいで処理が重いのか?と思っていたのですが、そのマシンをテンプレにもう一台作ってみてもやけに重いんです。
幸いにも社内がvCenterがサイロ化してるので、まずはFlexPod環境からSASのHDD環境のFC-SANのLenovo環境に移してみるが、やっぱり遅いのでまさかなーと思いつつデフラグ…断片化率20%・・・おおぃっ!と思いつつFC-SANとFlexPod両方とも、データストアがフラグメントしていないESXのOS領域にコピーしました。

……更に、違う問題に気がついてしまいました。UCS 220M4ですが、サーバハード上のSASでもLenovoより処理が遅かったので、とりあえず業者さんと相談して新ファーム/ドライバがないか調べる事にしました。

さて、デフラグの話に戻りますが、海外のコミュニティなどでもどちらがいいのか?KB等みるとどっちともいえる書き込みはないといった内容で終わっているケースが多く、日本でもVMtoolsに圧縮機能があった頃の書き込み等では、やるだけ無駄という書き込みが目立ちます。ですが、今回画像処理ソフトが1分近く経過してもまともに起動しなかったのが、デフラグを掛けるだけで正常な起動速度になった事からも、ゲストOSであってもフラグメント自体はよろしくないという事が実証できたのではないでしょうか?SSDは大きな意味は得づらいと思いますよ?早いですし。
シンプロの場合は忘れずにsdeleteとpunchzeroしましょう

タイトルなし

前回、どのような基準で仮想環境を選択したか、を記載していますがvSANを否定するつもりはありません。出来るだけメンテナンスフリーでないと手が足りないのでアップデートの頻繁にあるvSANはうちの環境では選択できない、というだけのことです。vExpertが言ってはいけない気がしますが、vSANにするなら実際の利用者に話を聞いている限りでは運用時数が少ないとはいえ、Nutanixのほうがいい気もします。後の課題としては、SSD仕入れ先を一社に絞って安く仕入れているメーカさんの発表前だったのですが某社のNutanixも見させてもらいましたが、価格がちょっと高いのがネックで少々導入しづらかったイメージです。ひょっとしたら今ならSSD単価が下がったメーカさんだともう少し状況が変わるかもしれませんが、うちの環境では以前に某ソフトでストレージ間ミラーリングした仮想デスクトップ環境でトラブル頻発(ストレージサーバの電源抜いたらサーバが落ちて片肺がまるっとすっ飛んだ、等)したせいで、上長が毛嫌いしてしまっているので残念ながら選択にすら上げさせてもらえないでしょう。
Nutanixのハードを長期検証させて欲しいという思いと抱えている仕事量の天秤が心にのしかかりますorz

最近ではAWSとvCenterというのが専ら話題に上がるキーワードなので、今更だと思いますが、AWS Direct Connectを利用する予定があります、、とは言っても、AWS専門にしたSIerに要件伝えて構築してもらう形で後は初歩的なネットワークの設計、例えばどこでNATするとかロードバランサ入れるだのサーバ追加方法どうするか、とかそういう話に終始すると思います。

さて、最後にUserCon2018で『FC-SANでベンダに組んでもらったが、ストレージがマルチパスではなく、シングルパスになっていて遅くてどうしようもなかった』という話を聞いて、2年前に『ユーザによるVMware View for IAサーバ構築ガイド』というタイトルでパフォーマンスチューニングの仕方や構築時の注意点とか纏めていたのを思い出しました。
精査は必要ですが、順番に載せようと思います。

NetAppでバグ引きました

利用中の去年導入した仮想サーバ基盤はコンバージドインフラなわけですが
NetApp A300/200(ONTAP9.1P5)でBug#1026931 : :PCI error triggered from uncorrectable ECC memory error condition on CNA portを引きました。

配線のないポートもCNAポートになっていたので、発生確率を下げるためにFCポートモードに変更し、とりあえずコントローラの戻しだけをまず実施しました。
問題はコントローラの戻しだけでも2-3分程度の通信断が発生し、ファームアップでも同じく発生するとのことで、ストレージの集約度が上がるほどメンテナンス時間が短くなるため、ファームアップまでは簡単にはできない状況です。

このため、メンテナンスウィンドウを広げるためにフルSSDRaidを組んだESXを増設する事にしました。もちろん今回はこのメンテのためだけではなく本社にある古いサーバを仮想化し、その上でESXごと移設することも目的としています。しかしながら、正直、この方法を導入から1年で実施しなければならない状況になると思っていませんでした。ですが、ESXにSSDの環境を用意する事で、通常はこのSSD環境でデータ抽出などのSQL実行環境として利用し、ストレージコントローラのメンテがどうしても必要な場合にはデータ抽出用の環境を停止&ストレージvMotionの上で、メンテナンスウィンドウ内に停止できないシステムをこのSSD環境にvMotionするという方法で、ストレージ2セット購入するほどのシステム冗長性が求められないのであれば、アリだと思います。

SSD入りESXを初めから入れれば良いじゃない、というツッコミはナシでお願いします。導入コスト的に厳しいのですよ。

ちなみにコンバージドインフラ導入に関しては、FC-SAN構成、フルSSDのNutanix、vSAN、コンバージドインフラと検討し、
FC-SAN構成(安定性◎、導入期間×、導入コスト×、増設コスト×、技術は枯れている)
フルSSDのNutanix(安定性…は良さそう◎、導入期間◎、導入コスト△、増設コスト×)
vSAN(安定性…話を聞いている限り疑問がある△、導入期間◎、導入コスト◎、増設コスト◎)
コンバージド(安定性○、導入期間○、導入コスト▼、増設コスト○、要求技術レベル:超高)
といった、評価でした。
vSANやNutanixは入れて運用していないので判断しかねますが、基礎技術的には簡単だと思えます。
コンバージドは入れてからの感想ですね。最低限MTU9000化を全てのESXのNICNFSストレージで行う事さえ行えば基本的な性能は普通に出ますが、その先までやるかどうか、Oracleのクエリもかなり特殊な物だけのようでESXのパラメータ変更が必要のようですので。

後は、FlexpPodでFabric InterConnectとポートを増設するためのFabricExtenderとありますが、正直この二つはNFSアクセス速度が出ないなどの問題が出た場合に、切り分けが難しいので別の物のほうが良いと思います。

vMotionが掛からない

11月から毎月3-5日程度の出張と深夜メンテの繰り返しで正直余裕が全くありませんでした。
何でしょうね、11月は台風22号の最中に宮崎、長崎と出張して宮崎で飛行機欠航&JRもNG、しょうがなく長距離バスに乗ろうとしたら目の前で行ってしまって、乗り継ぎ便にしたら乗り継ぎ場の4-5キロ手前で事故渋滞で予定便に乗り継げず、結局8時間程度移動に掛かったりと言いたい事はチョモランマより高くあるような出張が続いていました。

 

さて、本題。
先日Horzion6.2.3環境でVDIが起動しない症状が発生しました。
※この先の操作は、vCenterの設計を考慮すると問題はないはずですが
 必ずしも解決を保障しませんし、2次災害に繋がっても責任は持ちかねます。
 必ず自己責任で実施してください。

IPMIのログが溜まるせいで、ESXが正常に動作しなくなるというのが主原因で
再起動が必要になります。
前回は、メンテナンスモードに入れて再起動できましたが、今回はメンテナンスモードに入れようとしても、入らないという状況でした。
サポセンに問い合わせはしたものの、もう少し詳細調査した結果、VDIの電源ON状態ではvMotionが掛からない、またシャットダウン後も同じくvMotionが掛からないという状態でした。

このため、シャットダウンしたVDIをvSphereからインベントリから削除(ディスクから削除をしないように!)で障害の発生したESXから削除し、データストア上でvmxファイルを右クリックで再登録してVDIの電源をONする事で復旧させられました。

また、今回の症状でvDSとVDIとの接続情報に不整合が発生したようで50台程度のVDIのvNIC付け直しが必要になりました。vDSのVLAN変更では改善せず、vNIC自体を付け直さないと接続が回復しませんでした。

更に、今回の件の影響なのかわかりかねますが、DeepsecurityのManagerサーバがvNIC付け直しを行ったVDIを認識させられず、結局DeepSecurityのmanagerとRelayの再起動が必要になりました。

今年で5年目に入りますが、VDI1000台(ESX18台、平均実稼動5-600台)、DeepSecuirty、3年目でHorzionを6.2.3にアップグレードし、4年目よりLinkCloneを利用し始めましたが、DBのクリーンナップとShurinkを定期的に実施できないのであれば、VDI環境用のDBサーバは1台で運用せず、vCenter用、ConnectionServerのイベント、DeepSecurityと3つに分けないとキューが溜まって上記の症状が発生するように見受けられます。

DBを分けるか、定期クリーンナップ&Shurinkかを導入時に検討が必要だと判断します。
これらについては今後検討します。

 

USBのNICを利用したHorizon Clientの利用

先日ユーザ会の会員の方からの問い合わせでWindows7のノートPCにHozion Clientを入れて、USBのNIC経由でVDIを利用したところ2時間程度で画面が真っ黒になるという問い合わせがありました。

症状としては、真っ黒になった後にNICの抜き差しをすると正常に接続できるようになるという事だったのでNICの省電力対応のチェックを外してどうなるかを切り分けてもらい、それでも改善しなかったので別NICを試したかを確認したが、既に実施済みということでUSB NIC依存ではなく、ノートPC側の問題というところまで切り分けました。

その後にデバイスマネージャのUSBの電源管理(例えば、Generic USB Hubのプロパティの電源の管理タブ)にもNICと同じく電源管理の『電力の節約のために、コンピュータでこのデバイスの電源をオフにできるようにする』のチェックを外す必要があるようです。

O365の認証関係

以前、某メーカの営業の方がOffice365の認証はプロキシ除外に入れなければならないが除外サイトが増えるのを製品側で常時チェックしてアップデートするという話がありました。これでそのサイトを調べたところ(要するにうちの環境では利用していないのです)、以下のURLだということが分かりました。
 https://support.content.office.net/en-us/static/O365ipaddresses.xml

で、製品でそのURLに登録されているサイトをプロキシ除外に登録すれば、その製品を導入しなくても実装できるなぁ、と思っていましたが自分で使わないのにスクリプト作るのめんどいなあ、と思って更に調べたところ以下のTechNet記事を見つけました


Download and convert the O365IPAddresses.xml file to a custom PowerShell object

https://support.content.office.net/en-us/static/O365ipaddresses.xml

動作確認まではちゃんとしてないのですが、一応それっぽいのが出るところまでは。。。

これがあれば、Proxy.pak保存先かどこかで実行して定期的に更新すれば何とか、という感じではないでしょうか