ページの先頭です

ページ内を移動するためのリンク
本文へ (c)

ここから本文です。

モダンなデータセンターが必要とするAIOps対応の運用監視ツール(Augtera)

ライター:渡辺 義和
2002年 ネットワンシステムズ株式会社入社

主にクラウド、バックアップ、モニタリング製品等の技術支援を行っている

・AWS 認定ソリューションアーキテクト プロフェッショナル

目次

はじめに

現在のネットワーク運用監視ツールは、新たな課題に直面しています。

それら課題の背景にあるのは、ネットワークの構成が以下の様な進化を遂げる中で、データセンターやオンプレの内部、外部、およびデータセンターや拠点の間に、今までには無かった新たな複雑性が生まれているためです。

  • 固定フォームファクタースイッチをベースにしたClos構成
  • 高密度化するトポロジー
  • アンダーレイとオーバーレイによるネットワークの抽象化
  • ハイブリットクラウド
  • SD-WAN

こうした新たな複雑性に伴い、旧来のアプローチのままでは、監視対象やレイヤー数の増加、さらには各種データから生じるノイズなどによって、ネットワークがアプリケーションに与える影響を瞬時に把握することが困難となっています。また、ネットワークに問題が無いケースであっても、アプリケーションの運用チームなど他部門に対して、ネットワーク側が問題では無いことを証明するのに一定の時間を要しているのが現実です。

本ブログでは、AugteraのネットワークAIプラットフォームを利用することで、こうした課題に対してどういった新しいアプローチが取れるのかご紹介していきます。

余計なノイズを除去することの重要性

利用しているツールや監視対象数の増加、及び監視データの多様化は、環境に新たな複雑性を生むだけでなく大量のアラートを引き起こすことで、ネットワーク管理者の負担を年々増加させています。また、運用に深刻な影響を与えるイベントや優先度の高い異常をダッシュボードなどを通じて把握し、監視を行うことは日々難しくなっているのが実情です。

効率的なネットワーク運用を行うには、対応を自動化している・していないに関わらず、そのベースとなる監視データに生じるアラート等のノイズが劇的に削減されるか、理想としては全て排除されることが望ましいです。この実現には運用でカバーする等の人力での対応には限界があり、AI/MLのIT運用への活用(AIOps)がキーになると考えています。

ネットワーク運用へのAIOpsの導入

AI/MLは、ネットワーク運用のワークフローや自動化を根本から変える様な発展を見せており、ネットワーク運用へのAIOpsの導入は先に挙げた課題に対する1つの解決策です。事実、先進的なネットワーク運用チームは、以下領域に対してAIOpsを活用することで、ありふれた業務の削減やKPI(重要業績評価指標)を劇的に改善しています。

  • 閾値の調整
  • 異常やグレーな障害の検出
  • データの相関分析
  • 根本原因の特定

例えば、ネットワークAIOpsの良い活用事例の1つとして、閾値を機械学習モデルに置き換えることが挙げられます。閾値はノイズが多く、偽陽性や偽陰性を生み出します。閾値の代わりに、ネットワークに特化した機械学習モデルを活用することで、パターンの学習、変化するパターンへの適応、異常の検出、グレーな障害の検出などが行え、従来の仕組みよりも高い精度を発揮します。

その他の事例としては、相関分析を活用することで、複数のデータソース、イベント、アラートなどを結び付けることも可能です。尚、AugteraのネットワークAIプラットフォームでは、マルチレイヤーでトポロジーを加味した形で、相関分析を行うことが出来ます。以下の表では、AI / MLの技術がネットワーク運用にどの様に役立つのかを示しています。

ネットワーク運用にもたらされるAIOpsの効果

ではこうしたAIOpsの活用は、具体的にどれ位の効果があるのでしょうか。とあるネットワーク運用チームは、AIOps導入を通じて、KPI(重要業績評価指標)を劇的に改善しています。

  • 平均検出時間(MTTD)を90%以上短縮
  • ミティゲーションまでの平均時間(MTTM)を50%以上短縮
  • 平均修復時間(MTTR)を40%以上短縮
  • 平均インシデント間隔(MTBI)を4倍改善

こうした改善は、異常を検出してからのトラブルチケットの自動作成や、異常の内容によってはその緩和と修復までを自動化するなど、ネットワーク運用の包括的な変革に結びつきます。また、日常的に時間の掛かる作業が自動化されることで、ネットワーク運用チームは修正やインシデントの防止、ネットワーク全体の信頼性にスキルを集中出来ます。

まとめ

ネットワーク機器のアーキテクチャがシンプルに保たれ、それらを組み合わせてシステムを高度化する潮流の中で、ネットワーク運用は新たなレベルで複雑化しています。この新たな複雑さには、次世代のネットワーク運用監視ツールが必要です。

次世代のツールは、AI/ML技術を活用してノイズを排除し、関連するイベントを共通のインシデントにまとめ、KPIを劇的に改善し、更なるアクションのためにインシデントの根本となる事象と運用に付随するインシデントを識別します。AugteraのネットワークAIプラットフォームは、こうした課題を解決すべく、AIOpsの提供を通じて、ネットワーク運用チームに新しい力を与えます。

今回のブログでは、ネットワーク分野における現状の課題と、ネットワーク運用へのAIOpsの活用に向けた概要に触れました。

次回のブログでは、Augteraで具体的にどういったことが出来るのかという観点から、MLを活用した異常検知や、NLPを用いたログ解析の事例について、ご紹介をしていきます。

(このブログは、Augteraの”NetOps Tools for Modern Data Centers”の記事を抄訳したものです)

参考リンク

NetOps Tools for Modern Data Centers

AI in Networking

Data Center Solution

Policy-based Noise Elimination

Machine Learning Anomaly Detection ? Beyond Thresholds

※本記事の内容は執筆者個人の見解であり、所属する組織の見解を代表するものではありません。

RECOMMEND