2015年8月8日土曜日

vRealize Operations Manager を見てみよう(2) vROpsは、監視ツールと何が違うのか?

vRealize Operations Manager(vROps)は、VMware社が力を入れている、管理ソリューションソフトウェアです。

vROpsって監視ツールなんでしょ。監視ツールななんて、今までもたくさんあったじゃないですか!と思われる方も多いことでしょう。たしかに、JP1やSystem Walker、Web管理画面ですとOPManagerや、最近ではZabbixなど、有名どころはたくさんあります。

ただ、vROpsは、運用監視ツールと表現するには多少語弊があります。
先ほどあげたようなたとえば、JP1やZabbixに求める機能は何でしょうか?

これらの運用監視ツールに求めるものは、
  • サーバーやその上のアプリケーションの稼働状態を監視し、閾値に基づきアラートをあげるツール
  •  障害発生時には、この監視ツールが取得した定期的な情報を元に、何が起きたのかを解析する原因調査の1つのツール
なのではないかと思います。

この場合、閾値を超えた場合は何らかの異常が発生したという認識を監視ツールは行いますが、閾値は管理者自らが設定するもので有り、監視ツール自身が閾値を自動調整することはありません。今まで、運用側のエンジニアは、この閾値を設定することが大変な作業であったかと思います。
  • アプリケーション用途や利用人数に応じた閾値の設定
  • 昼と夜間で異なる閾値の把握
  • 閾値を高く設定することによる、トラブル未検知
  • 閾値を低く設定することによる、誤検知
これは、保守運用(特にデーターセンター管理者)にとっては、新しいシステムを導入するたびに発生する永遠の悩みだと思います。

vROpsは、これらの監視ツールとは違い「運用管理ツール」という位置づけになります。
監視ツールとの最大の違いは、違いという点で大まかに言うと「閾値は、vROpsが自動で設定する」 ということです。

これは、デフォルトで閾値の設定を持っているだけでしょ?と思われる方も居るかもしれませんが、確かにある程度のデフォルト値を持ってはいますが、監視するサーバーや仮想マシンの状況を定期的に取得し、そのマシン状態の平均を割り出し、その平均値をアラートの閾値として稼働するロジックが組み込まれております。

実際の現場で考えてみましょう。
夜間3時から6時まで処理を行うバッチ処理サーバーがあったとしましょう。
3時から6時までは常に90%程度のCPU利用率がありますが、バッチが終了したらCPU負荷率は0%になる状況です。
この場合、通常の監視ツールですと、閾値を90%にすると、3時から6時の間でひょっとするとアラートが上がる可能性があります。

vROpsは、今まで取得した統計情報を元に閾値を考えますので、3時から6時までのCPU高負荷は、異常とはとらえません。但し、通常処理のない日中にCPUが高負荷になった場合などは、今までと違う動きをしますので、異常ととえられます。

いわゆる、全体の動作を把握して、いつもと違うか否かで異常を判断する仕組みとなります。

言い換えますと、長くvROpsを利用為ていればいるほど、「いつもの」状態がわかるわけですが、vROpsを構築してすぐに監視ツールとして使えるかと言えば使えないというのが答えになります。

vROpsは、状態を監視して、いつもの動作をしていない環境をリストアップすることで、通常では気がつきにくい負荷の状態や、隠れているトラブルの種を検知することができます。


監視は、今までの監視ツールで行い、状態を管理するシステムとしてvROpsを導入することで、潜在的なトラブルと突発的なトラブルを検出し、安心して夜眠れる運用管理者のためのシステムが、vROpsと言ってよいでしょう。



0 件のコメント:

コメントを投稿