Zabbixアプライアンスに奮闘中

VDIとはまったく関係ないですが、ゲストOSの監視やプロキシアプライアンスの監視を手元の環境で強化するため、Zabbixで遊んでみる事にしました。
奮闘中と書いたとおり、やり始めたばかりです。

Linux入れるのが面倒だったのでZabbixアプライアンスにしてみました。

実をいうとZabbixアプライアンスを展開するのは2度目です。一度目は3.2だったのですが、3.2は安定稼動していないという情報が入ったので途中まで設定してサポート期間の長い3.0を再展開しています。ちなみに面倒なのでVMTOOLS入れてません。
ここまで読んだ人は気がついたでしょうが、何も調べずに始めました。

1.まずアプライアンスを以下からvmdkファイルをダウンロード。

www.zabbix.com

2.続いてtar.gzで圧縮されていたのですが、いったんWindowsの解凍ツールで解凍し、vCenter ConverterのConvert MachineのボタンからConversionウィンドウを起動し、『Select Source type』で『Backup image or Third-party virtual Machine』で取り込みを進めます。ちなみにverterにかけるのは、そのままアップロードして起動するとVirtualBoxか何かの形式になっているようで、起動時にSCSIのエラーが出ます。

仮想マシンが次のエラーでパワーオンに失敗する:サポートされていないか無効なディスク タイプ (Unsupported and/or invalid disk type) (2079977)
https://kb.vmware.com/selfservice/microsites/search.do?language=en_US&cmd=displayKC&externalId=2079977

 

3.起動する前にvNICをe1000からVMXNET3に変更して起動する。

4.ログインIDがZabbixのサイトでわかりづらいですが
  id:appliance PASS: zabbix、スーパーユーザも同じdになっていますのでこれでログインする。ログインするとわかりますが、Debian系のようでコマンドが違うせいで悩まさせられました。ちなみにsudoはOKでもスーパーユーザになれません。

5.まずeth0がDHCPになっているので、IPを変更します。
sudo vi /etc/network/interfaces
iface eth0 inet static
address 192.168.1.121
netmask 255.255.255.0
gateway 192.168.1.254
DNS関係の設定の追記が発生します。

NICの上げ下げもコマンドが違いましてifupdownでやります。
sudo /sbin/ifdown eth0
sudo /sbin/ifup eth0

6.次にLDAPを使うためDNSが使えるようにsudo vi /etc/resolv.confで変更します。
search hogehoge.local
namesever 192.168.1.100
nameserver 192.168.1.111
SearchでActive Directoryドメインを指定します。

※次回、修正内容記載しますが、resolv.conf自体がnetwork managerのせいで
 ファイル自体が再起動するたびに置き換えられます。

7.まずはADにzabbixというアカウントを作りましょう。このアカウントはDomain Usersだけで問題ありません。次にhttp://(zabbix)/zabbixでアクセスしAdmin、zabbixでログインします。上のメニューの『管理』>『ユーザー』を開き、adminのIDをADに作成するアカウント名とそろえます(とりあえず区別のため『Z@BBIX』と記載します)。パスワードもADのサービスアカウントのルールに従って変更します。

8.次にhttp://(zabbix)/zabbixでアクセスしADのユーザアカウントでログインできるようにLDAP設定します。
上のメニューの『管理』>『認証』を開き
項目を上から順に
デフォルトの認証:LDAP
LDAPホスト:hogehoge.local
ポート:389
BaseDN:DC=hogehoge,DC=local
検索の属性:sAMAccountName
BIND DN:hogehoge/Z@BBIX
bind password: hogehoge/Z@BBIXのパスワード
ログイン:Z@BBIX(変更不可)
ログインのパスワード:Z@BBIXのパスワード

でテストと更新を押します。
手順7.でWEB管理者アカウント名を変更したのはここでアカウントが固定されているから、です。ちなみにLDAPホストは他のサイトではドメコン指定していますが、その場合ドメコンの障害があると認証先が切り替わりません。このため、ドメイン指定にしてFSMOに問い合わせがいくようにしています。本番環境しかないのでシャットダウンテストはしてませんので気になる人は自分でテストしてください。

9.次に『管理』>『ユーザ』でユーザの作成をしますが、ここでADのユーザアカウントを登録します。残念な事にセキュリティグループで利用者指定まではできないようです。ちなみにこのユーザの画面で言語を日本語にすると正常に日本語表示されるようです。

 

この後WindowsにAgentを導入する作業を進める予定です。
公式では、C:\直下に配置するように記載がありますが、C:直下である必要もないというサイトも見つけていますので、Program filesやC:\直下にフォルダを作成したりといったテストを進めたいと思います。

シングルサインオンの製品

ICカード指紋認証でworkgroupのシンクライアントからログインするシステムってそんな難しい物だったんでしょうかね?
今日、とあるSIerさんにアポとって仮想環境で使える認証と言うことでお話聞いたのですが、
接続元もドメイン参加が前提という残念な結果でした。BYOD非対応という意味ですので折角の複数認証の価値がほぼないと判断しました。
敢えて聞きませんでしたがゼロクラも当然非対応でしょう。これで仮想環境対応していると言われると思いませんでした。

元々私が想定していたシンクライアントドメイン参加は、シンクライアントドメインのユーザがVDIドメインには接続できない
片方向信頼関係のドメインとして構築し、View ClientでID/PASS、ドメインを選択する事を想定していました。
こうする事で、管理者PCのDNSサフィックスにシンクラのドメインを追加すればユーザからは見えずセキュリティ面でも無駄なアカウントがなく
進入されないが、Viewクライアントで重要なシステムタイムのずれが発生してもADによる時刻同期強制によりハードウェアクロックがずれても
修正される(はず)といった運用面での利便性が得られるという事を考えていました。

そういった観点でこのSIerさんの製品では特定を防ぐため詳細は書きませんがADに手を加えて対応するという事だったので
シンクライアントから認証できる必要がある=同ドメインか双方向信頼設定が必要という事で
打ち合わせ開始10分以内に状況が厳しいと判断した次第です。

変わった商品紹介

データセンタや遠隔地に設置しているネットワーク機器やONUを再起動したいけど、どうにもならない時がありませんか?ありますよね?そんな一人社内SEの皆さんに商品のご紹介です。(ジャジャーン

www.amazon.co.jp

httpでこの機器に接続してコンセントの給電をとめてくれたり、Pingポーリングに失敗したら再起動といった管理ができる優れものです。Amazonでも66000円するので高いですが、保険として導入を検討する価値があると思います。

ちなみに残念な点はラックマウントキットはありますが、19インチラックにはうまく収まりませんでしたので棚板買ってくださいね。

GPU利用のユーザさんの障害に関して報告いただきました。

以前GPU付のVDI環境のユーザさんで熱による障害ではないか?という記事をあげましたが、本当にそうだったと報告いただきました。

解決策ですが、ラックのコンソールと反対側(背面側)の扉にファンを取り付けました。設置位置としては熱が抜けやすくなるようにブレードシャーシの1つ上から上のユニットに3連ファンを設置したところ5度程度は低下したとのことでした。
このユーザさんの環境では、一時障害として熱でGPUが故障し交換。そして2次障害としてGPUを搭載しているとVMXファイルにGPUのシリアルが記載されるらしく、故障でゲストOSが落ちるとVMX上のシリアルが消えて制御が利かなくなる…様な状態だったようです。

現場に立ち会ったメーカSEさんも目を白黒させていたそうなので、メーカさんにもこういった知識を持ってもらえると利用者としては安心して導入に踏み切れるようになるのではないでしょうか?

Connection Serverのイベントログ

放置するとイベントウィンドウでユーザIDを検索してもタイムアウトしてしまいログが出なくなります。この対処としてDBのクリーンナップとインデックス作成が必要になりますが、それでも放置するとインデックスを貼ろうとしても貼れなくなります。VMのサポセンに問い合わせると『マニュアルで定期的にクリーンナップしてください』と言われます。VMware Horizon View 6.x でイベントデータベースのパフォーマンスが極端に低下する (2099872)

VMware Horizon View 6.x でイベントデータベースのパフォーマンスが極端に低下する (2099872)
https://kb.vmware.com/kb/2099872
念のため消し方についてサポセンに聞くとコミュニティのスレを案内された事があります。

communities.vmware.com

 

展開中のリンククローン展開開始が遅れた理由

リンククローンは現在新人君に展開作業を委ねました。

元々、フルクローンのVDIを流動プールで利用するように設定しローカルプロファイルでの利用な上、130台もあったのでプロファイルは基本的に7日で自動削除されるようにローカルポリシーで設定していました。

当然こんな利用方法ではユーザからは『毎日のプリンタの設定が面倒』だの『お気に入りが消えるのが面倒』だのいわれるわけですが、これについては私の入社前からずっとこの設計でした。
そもそもこの設計だったのは、既存社員(退社した方も含めて)の技術力と1案件単位でのコスト制限の影響があった事、またVDI=システムトラブルでデータがVDIごと飛ぶという印象が会社的にあり、安定稼動する環境を作る事が最優先されてきた事に起因しています。この問題をView5導入時にドメインコントローラやネットワーク等社内の全てを平行で見直しを行い、3年間フルクローンで正常稼動させる事ができた事から踏み切る事ができたという背景があります。
とはいえ、本来であれば年度末には展開開始できる状態だったはずなのに遅れた原因は展開開始直前にFSMOを持ったドメコンが故障したことに起因します。このドメコン、私が入社する前から存在し、かつ設計ミスと内政的問題でView導入からしばらくの間まではメモリ2GB(笑)で稼動しており、それを一度メモリを追加&OS再インストして利用していました。このマシンが、ハードのアラートは出ていないものイベントログ等で正常に処理できていない事を確認し、FSMOをTransferコマンド、Seizeコマンドで転送しようとしても受け付けない状況で再起動してやっと受け付けるようになり、その後シャットダウンしました。しばらく様子見していたのですが、よくよく調べるとLDAPDNSと信頼関係のデータが重複レプリケートされており、それらを手動削除後に展開開始する事になったという状況です。

久しぶりなので近況から

ずいぶん間が開いてしまったので見ている方ももう少ないでしょうが、時間的余裕はかけらもありませんが、やっと精神的な余裕が出てきました。

自称一人社内インフラ課課長(笑)の状態だったのが、まず4月になって変わったこととして一人仮想エンジニアが入りましたので彼を調教教育しています。彼の課題としては運用をやったことがないため、先日あえて思うようにやってもらったんですがWindows関連のアップデートでVDIを再起動せずにインストールし翌日以降でエラーが多発しました。一応、実施する前に『とりあえず再起動推奨』とは言ったんですが、そのまま実行したので、運用は経験がモノをいうということを理解頂けたでしょう。

また、社内インフラ課員としてはネットワークは必須ですが、詳細設計はベンダに投げられる体制を作っていますので(私は納期短縮のため詳細設計まで軽くまとめてから投げてますが)、まずは概要設計がある程度できるようになってもらいたいと思っています。

とりあえず後で買って読ませてテストまでするつもりですが、以下の本を私が買って仕事中にでも読ませようと思っています。

インフラ/ネットワークエンジニアのためのネットワーク技術&設計入門

 

Amazon CAPTCHA


先ほど立ち読みでサラサラっと見た程度ですが、過去の経験と照らし合わせても正しく理解できる内容が書いてあると感じられました。正直、マスタリングTCP/IPとかそういうのも重要ですが、社内SEとして重要なのは概要設計ができる事とコンフィグからどのような設計になっているか理解できることで設定できることであって、パケットの中身でどこがおかしいだのということが必要になるケースは殆どありません。
個人的には3WAYハンドシェイク等は知っている必要はありますが、パケットレベルでの解析が必要な事態になったのは汎用機とIAサーバのHULFT伝送でのソフトバージョン違いで双方向NAT環境で通信ができなかった時ぐらいでしょうか?
そういった観点からまずはネットワーク運用をやったことがない彼の教科書として最適だろうと考えています。

そんな事いって、自分はそういうの勉強はいらんのか?という話になると思いますが一応考えてはいます。同じ著者の本ですが

www.amazon.co.jp

私も今対応中の仮想サーバ基盤でロードバランサのワンアーム接続を行っておりますがそういった内容から仮想環境のネットワークまで触れられておりこちらも立ち読みでさらっと見た程度ですが、かなり良い内容でした。自身の理解を見直す事と新人のNEとしての第二ステップにちょうど良いだろうと考えています。