Zabbixアプライアンスに奮闘中#2

ちょっと基幹システム向けのFlexPod設置やら導入から7年越のシステムのリプレースでインフラ基盤の設計をまともにしないで持ち込む業者さんとの打ち合わせ後に現行の保守(これは一切関わってませんが)の課題だのあり、Agentインストができてませんでした。
とりあえず、ZabbixがDB認証が通らなくなるとWebコンソールの一番下に
『Zabbixサーバが動作していません(画面のリフレッシュを行ってステータスを再確認してください)』と出ます。サイトによってはDB接続パスワードをコピーしてmySQLのコンフィグの.my.cnfに上書きと書かれているサイトもありますが、Web画面で上記メッセージが出なければ問題ありません。

後、前回resolv.confにseach hogeghoge.localと追記してローカルドメインにhost名でアクセスできるようにしましたが、再起動するとnetwork managerでresolv.confが初期化されてしまい、LDAPアクセスができなくなってWEBコンソールにログインできなくなりました。DNSは/etc/network/interfacesにdns-nameserverとして追記すればOKだったのですが、seachの代わりがdns-seachのようです。数年Linux構築していなかったのがバレバレですな、これは。

アプライアンスですが当然時刻が全く合ってませんので、合わせてください。またNTPクライアントやnslookupのコマンドもないのでインストする必要がありました。
sudo apt-get install ntp
sudo apt-get install dnsutils
#--------------------------------

前回の修正をば。resolv.confがnetwork managerに初期化されるため

sudo vi /etc/network/interfacesでeth0の設定を以下のように変更

auto eth0
iface eth0 inet static
address 192.168.1.121
netmask 255.255.255.0
gateway 192.168.1.254

dns-nameserver 192.168.1.100 192.168.1.111
dns-domain hogehoge.local

信頼関係を結んでいるドメインやらがある場合、そちらに対してホスト名でアクセスするのであれば、dns-seachで設定するようです。

#--------------------------------

アプライアンスだからなのかnslookupがインストされていないため sudo apt-get install dnsutilsでインストールします。

次にテスト端末(Windows 64bit)にZabbixAgentをインストするためダウンロードして、conf/zabbix_agentd.win.confをbin/win64にコピーし修正します。
LogFile=C:\Program Files\zabbix_agents_win64\zabbix_agentd.log

bin/win64ディレクトリをProgram files配下に配置するつもりのためzabbix_agents_win64に変更し以下を変更。
LogFile=C:\Program Files\zabbix_agents_win64\zabbix_agentd.log
Server=Z@BBIX ※Zabbixサーバ
ServerActive=Z@BBIX:10051
#Hostname=127.0.0.1
コメントアウトするとWindowsのホスト名を動的に取得します。
※HostnameItemとHostMetadataを変更しているサイトもありますが
 いったん変更なしでいきます。

zabbix_agentd.exe -i -c zabbix_agentd.confでインストール。
zabbix_agentd.exe -s -c zabbix_agentd.confでサービス起動できますが、サービスにも登録されていました。
この時点でログファイルのzabbix_agentd.logを見ると末尾に
no active checks on server [ZA@BBIX:10051]: host [SERVER001] not found
と出る場合があります。というかWebコンソールで何もしていないと出ます。

Webコンソールにログインし、【設定】>【ホスト】>【ホストの作成】の画面右上にある【ホストの作成】でエラーで表示されたホスト名と同じく大文字小文字をそろえて登録する事で検知できるようになるようでzabbix_agentd.logにエラーが出なくなります。

Zabbixアプライアンスに奮闘中

VDIとはまったく関係ないですが、ゲストOSの監視やプロキシアプライアンスの監視を手元の環境で強化するため、Zabbixで遊んでみる事にしました。
奮闘中と書いたとおり、やり始めたばかりです。

Linux入れるのが面倒だったのでZabbixアプライアンスにしてみました。

実をいうとZabbixアプライアンスを展開するのは2度目です。一度目は3.2だったのですが、3.2は安定稼動していないという情報が入ったので途中まで設定してサポート期間の長い3.0を再展開しています。ちなみに面倒なのでVMTOOLS入れてません。
ここまで読んだ人は気がついたでしょうが、何も調べずに始めました。

1.まずアプライアンスを以下からvmdkファイルをダウンロード。

www.zabbix.com

2.続いてtar.gzで圧縮されていたのですが、いったんWindowsの解凍ツールで解凍し、vCenter ConverterのConvert MachineのボタンからConversionウィンドウを起動し、『Select Source type』で『Backup image or Third-party virtual Machine』で取り込みを進めます。ちなみにverterにかけるのは、そのままアップロードして起動するとVirtualBoxか何かの形式になっているようで、起動時にSCSIのエラーが出ます。

仮想マシンが次のエラーでパワーオンに失敗する:サポートされていないか無効なディスク タイプ (Unsupported and/or invalid disk type) (2079977)
https://kb.vmware.com/selfservice/microsites/search.do?language=en_US&cmd=displayKC&externalId=2079977

 

3.起動する前にvNICをe1000からVMXNET3に変更して起動する。

4.ログインIDがZabbixのサイトでわかりづらいですが
  id:appliance PASS: zabbix、スーパーユーザも同じdになっていますのでこれでログインする。ログインするとわかりますが、Debian系のようでコマンドが違うせいで悩まさせられました。ちなみにsudoはOKでもスーパーユーザになれません。

5.まずeth0がDHCPになっているので、IPを変更します。
sudo vi /etc/network/interfaces
iface eth0 inet static
address 192.168.1.121
netmask 255.255.255.0
gateway 192.168.1.254
DNS関係の設定の追記が発生します。

NICの上げ下げもコマンドが違いましてifupdownでやります。
sudo /sbin/ifdown eth0
sudo /sbin/ifup eth0

6.次にLDAPを使うためDNSが使えるようにsudo vi /etc/resolv.confで変更します。
search hogehoge.local
namesever 192.168.1.100
nameserver 192.168.1.111
SearchでActive Directoryドメインを指定します。

※次回、修正内容記載しますが、resolv.conf自体がnetwork managerのせいで
 ファイル自体が再起動するたびに置き換えられます。

7.まずはADにzabbixというアカウントを作りましょう。このアカウントはDomain Usersだけで問題ありません。次にhttp://(zabbix)/zabbixでアクセスしAdmin、zabbixでログインします。上のメニューの『管理』>『ユーザー』を開き、adminのIDをADに作成するアカウント名とそろえます(とりあえず区別のため『Z@BBIX』と記載します)。パスワードもADのサービスアカウントのルールに従って変更します。

8.次にhttp://(zabbix)/zabbixでアクセスしADのユーザアカウントでログインできるようにLDAP設定します。
上のメニューの『管理』>『認証』を開き
項目を上から順に
デフォルトの認証:LDAP
LDAPホスト:hogehoge.local
ポート:389
BaseDN:DC=hogehoge,DC=local
検索の属性:sAMAccountName
BIND DN:hogehoge/Z@BBIX
bind password: hogehoge/Z@BBIXのパスワード
ログイン:Z@BBIX(変更不可)
ログインのパスワード:Z@BBIXのパスワード

でテストと更新を押します。
手順7.でWEB管理者アカウント名を変更したのはここでアカウントが固定されているから、です。ちなみにLDAPホストは他のサイトではドメコン指定していますが、その場合ドメコンの障害があると認証先が切り替わりません。このため、ドメイン指定にしてFSMOに問い合わせがいくようにしています。本番環境しかないのでシャットダウンテストはしてませんので気になる人は自分でテストしてください。

9.次に『管理』>『ユーザ』でユーザの作成をしますが、ここでADのユーザアカウントを登録します。残念な事にセキュリティグループで利用者指定まではできないようです。ちなみにこのユーザの画面で言語を日本語にすると正常に日本語表示されるようです。

 

この後WindowsにAgentを導入する作業を進める予定です。
公式では、C:\直下に配置するように記載がありますが、C:直下である必要もないというサイトも見つけていますので、Program filesやC:\直下にフォルダを作成したりといったテストを進めたいと思います。

シングルサインオンの製品

ICカード指紋認証でworkgroupのシンクライアントからログインするシステムってそんな難しい物だったんでしょうかね?
今日、とあるSIerさんにアポとって仮想環境で使える認証と言うことでお話聞いたのですが、
接続元もドメイン参加が前提という残念な結果でした。BYOD非対応という意味ですので折角の複数認証の価値がほぼないと判断しました。
敢えて聞きませんでしたがゼロクラも当然非対応でしょう。これで仮想環境対応していると言われると思いませんでした。

元々私が想定していたシンクライアントドメイン参加は、シンクライアントドメインのユーザがVDIドメインには接続できない
片方向信頼関係のドメインとして構築し、View ClientでID/PASS、ドメインを選択する事を想定していました。
こうする事で、管理者PCのDNSサフィックスにシンクラのドメインを追加すればユーザからは見えずセキュリティ面でも無駄なアカウントがなく
進入されないが、Viewクライアントで重要なシステムタイムのずれが発生してもADによる時刻同期強制によりハードウェアクロックがずれても
修正される(はず)といった運用面での利便性が得られるという事を考えていました。

そういった観点でこのSIerさんの製品では特定を防ぐため詳細は書きませんがADに手を加えて対応するという事だったので
シンクライアントから認証できる必要がある=同ドメインか双方向信頼設定が必要という事で
打ち合わせ開始10分以内に状況が厳しいと判断した次第です。

変わった商品紹介

データセンタや遠隔地に設置しているネットワーク機器やONUを再起動したいけど、どうにもならない時がありませんか?ありますよね?そんな一人社内SEの皆さんに商品のご紹介です。(ジャジャーン

www.amazon.co.jp

httpでこの機器に接続してコンセントの給電をとめてくれたり、Pingポーリングに失敗したら再起動といった管理ができる優れものです。Amazonでも66000円するので高いですが、保険として導入を検討する価値があると思います。

ちなみに残念な点はラックマウントキットはありますが、19インチラックにはうまく収まりませんでしたので棚板買ってくださいね。

GPU利用のユーザさんの障害に関して報告いただきました。

以前GPU付のVDI環境のユーザさんで熱による障害ではないか?という記事をあげましたが、本当にそうだったと報告いただきました。

解決策ですが、ラックのコンソールと反対側(背面側)の扉にファンを取り付けました。設置位置としては熱が抜けやすくなるようにブレードシャーシの1つ上から上のユニットに3連ファンを設置したところ5度程度は低下したとのことでした。
このユーザさんの環境では、一時障害として熱でGPUが故障し交換。そして2次障害としてGPUを搭載しているとVMXファイルにGPUのシリアルが記載されるらしく、故障でゲストOSが落ちるとVMX上のシリアルが消えて制御が利かなくなる…様な状態だったようです。

現場に立ち会ったメーカSEさんも目を白黒させていたそうなので、メーカさんにもこういった知識を持ってもらえると利用者としては安心して導入に踏み切れるようになるのではないでしょうか?

Connection Serverのイベントログ

放置するとイベントウィンドウでユーザIDを検索してもタイムアウトしてしまいログが出なくなります。この対処としてDBのクリーンナップとインデックス作成が必要になりますが、それでも放置するとインデックスを貼ろうとしても貼れなくなります。VMのサポセンに問い合わせると『マニュアルで定期的にクリーンナップしてください』と言われます。VMware Horizon View 6.x でイベントデータベースのパフォーマンスが極端に低下する (2099872)

VMware Horizon View 6.x でイベントデータベースのパフォーマンスが極端に低下する (2099872)
https://kb.vmware.com/kb/2099872
念のため消し方についてサポセンに聞くとコミュニティのスレを案内された事があります。

communities.vmware.com

 

展開中のリンククローン展開開始が遅れた理由

リンククローンは現在新人君に展開作業を委ねました。

元々、フルクローンのVDIを流動プールで利用するように設定しローカルプロファイルでの利用な上、130台もあったのでプロファイルは基本的に7日で自動削除されるようにローカルポリシーで設定していました。

当然こんな利用方法ではユーザからは『毎日のプリンタの設定が面倒』だの『お気に入りが消えるのが面倒』だのいわれるわけですが、これについては私の入社前からずっとこの設計でした。
そもそもこの設計だったのは、既存社員(退社した方も含めて)の技術力と1案件単位でのコスト制限の影響があった事、またVDI=システムトラブルでデータがVDIごと飛ぶという印象が会社的にあり、安定稼動する環境を作る事が最優先されてきた事に起因しています。この問題をView5導入時にドメインコントローラやネットワーク等社内の全てを平行で見直しを行い、3年間フルクローンで正常稼動させる事ができた事から踏み切る事ができたという背景があります。
とはいえ、本来であれば年度末には展開開始できる状態だったはずなのに遅れた原因は展開開始直前にFSMOを持ったドメコンが故障したことに起因します。このドメコン、私が入社する前から存在し、かつ設計ミスと内政的問題でView導入からしばらくの間まではメモリ2GB(笑)で稼動しており、それを一度メモリを追加&OS再インストして利用していました。このマシンが、ハードのアラートは出ていないものイベントログ等で正常に処理できていない事を確認し、FSMOをTransferコマンド、Seizeコマンドで転送しようとしても受け付けない状況で再起動してやっと受け付けるようになり、その後シャットダウンしました。しばらく様子見していたのですが、よくよく調べるとLDAPDNSと信頼関係のデータが重複レプリケートされており、それらを手動削除後に展開開始する事になったという状況です。