グラフィックカードは難しいようですね。

これは私が体験した話ではありませんが、VDI会に参加されている他社環境においてHP C7000にWS460を4本搭載した環境でグラフィックボードの障害が多発するという話がありました。

h50146.www5.hpe.com

h50146.www5.hpe.com

WS460は2スロットを利用するそうなのですが、上の段に4本差していることで中央2本が特に故障が多いという話からエアフロー不足の可能性がありました。

www.youtube.com

私も上記のエアフロー動画はこの話題があってから検索して見つけましたが発生している症状から見ても、両サイドが比較的冷却効率が良く故障率が低いという内容と合致しているため、このことは報告された他社担当者の方に報告しています。

さらに、WS460の構成を他社担当者の方に確認したところGPUが6個、CPU2個ということからK2が3枚なのでしょうか?そうであれば1GPUコアあたり113Wで計算すると
140W(CPU)×2+113×6= 958W
となります。CPUコア数で計算すると約6.84コア相当に該当します。通常のブレードサーバ2スロット分では4コアですので、スロット当たりのCPU集約率が1.7倍という計算になります。
このことからもCPU集約率が高すぎる事で熱だまりが出来てしまい熱暴走によるフリーズや熱によるGPU故障が発生していることが想像できます。

対策がなく、GPU搭載のVDIを導入することは無理なのか?と言われるとそういう事ではないと思います。ユーザが出来る対策としては、『1スロット単位での最大消費電力を下げる=1スロット空きを作る。』、『データセンタ設置であれば、床冷却エアコンの近くを利用させてもらう』、『C7000の背面側扉の1U上あたりにファンを設置する』でしょうか。なお、『ラックに沢山ファンつければ冷やせるでしょ』という観点でラックのフロント側にファンつける人がいると思いますが、流体力学でいうところの乱流が起きるだけで冷えないでしょうからお勧めしません。このあたりのラックの配置に関する誤った認識の修正に関しては、書きかけの記事がありますのでそちらでフォローアップさせてください。

【個人的な意見】
このような問題に関しては、メーカ側で新しいファームとドライバを提供してもらう事も重要だと思いますが、VDIではハイパフォーマンスモードで稼働させないとレスポンスが悪いことを考慮するとこれらを更新したとしても、この問題は解決しないと思っています。私自身、Celeron300AというCPUを利用したクロックアップが流行った20年前に、CPU回路の短絡による供給電力アップやクロックアップしたCPUを冷やすために水冷やペルチェ素子を利用した冷却等でかなり遊んできています。爆熱Pentium4をどう冷やして利用するか?などもやった体験やグラフィックボードの熱対策なども自作PCで経験しているため、正直ファームアップ等をしてもスペックと引き換えに安定させることしか出来ないという結論になるだけだろうと推測します。そういった中で安定させるのであれば、上記の『ブレードシャーシ内での分散配置』やデータセンタ内環境の改善を行うしか方法はないと思います。