ページの先頭です

ページ内を移動するためのリンク
本文へ (c)

ここから本文です。

メトリック・データを使った AIOps の利活用(Augtera)

ライター:Hadi Shaikh Zaker
パケット転送デバイス(伝送装置、スイッチ、ルータ)全般において、評価・検証及び案件サポートに従事
現在は、DC 製品における管理・監視ソフトウェアを中心に、調査及び連携検証を実施中

目次

はじめに

"ネットワーク"とは複数のデバイスが相互接続された状態で構成されます。データ転送を担うネットワークデバイスは、マネージメントプレーン、コントロールプレーン、データプレーンでダイナミックに情報を交換しながら、平行して外部パラメータ(トラフィック量、ソフトウェアのバグ、ヒューマンエラー、設定変更、環境条件、物理的な接触など)に作用されながらデータ転送という目的を果たしています。

このように複雑な”ネットワーク”から送られてくる膨大な監視データから、異常や予兆を見つけ出す作業が至難の業です。今回は、AIOps の力を借りて、どのように、意味のある Insights (洞察)を得ることができるかを、 Augtera Network AI を使ってご紹介したいと思います。

伝送レイヤの障害(Optical Failure)

ネットワークデバイス上のリンクアップやダウンはそれほど珍しいことではありません。このリンクアップ・ダウンには、計画的で意図的なもの(例:メンテナンス)や予期せぬ障害によるもの(例:道路工事中のファイバー切断)が考えられます。

一方で、3つ目の原因として経年劣化があります。SNMP ポーリングもしくはテレメトリ(Streaming Telemetry)情報を使って、インターフェース上の経年劣化の状況を捉えることができます。本ブログでご紹介する内容は、特定のインターフェース上の受光素子(フォトダイオード)における異常になります。実際のユーザ環境で発生した事象であり、機械学習を使って検出された内容をご紹介します。

図1は、Augtera Network AI で検出された、2つの異常(アノマリー)です。

それぞれ異なるメトリック、

  • 光受信パワーを示す「laneLaserReceiverPower(dBm)」
  • 電気信号に変換されたあとの電流値を示す「laneLaserBiasCurrent(mA)」

の"振る舞い"が普段と異なるため、アノマリーとして検出されています。

anomalies 図1 2つの異なるメトリックにより検出されたアノマリー(一覧)


■ laneLaserReceiverPower(dBm) 観点から事象の確認

----------------------------------------------------------------------------

laneLaserReceiverPower(dBm) の詳細を確認すると(図2)、

  • 深夜帯にリンクダウン発生(図2の右側の赤い縦線)
  • リンクダウン発生の約12時間前から、受信パワーにおける微小な変動が発生している(図の中央部分にある赤い横線)

のカテゴリに分けることができます。

前者は実際のリンクダウンの発生を示し、後者はその前から検出されていた経年劣化の発生を示しています。

anomalies 図2 機械学習(ML)による光受信パワー(dBm)におけるアノマリー検知)
※赤い部分は検出されたアノマリーを表示しています。

図2では、検出されたアノマリーのみ表示していますが、該当のメトリックの変動を見てみると、人間の目で変化がわからない程度であることがわかります。

19日の10時までは一定の値であったが、10時を堺に上下に極小の変化が見られています。

anomalies図3 laneLaserReceiverPower(dBm)メトリックの時系列データ
※ReceiverPower は対数(log)による表現になるため、変化は緩やかになり人の目で変化がわからないケースがあります。

このように、変動のレベルが非常に小さく見えるため、単なる偶然、つまり誤検出(False Positive)と考えてしまうかもしれません。しかし、検出されていたアノマリー(図2の中央部分の赤い横線、図3の上記にある微小な変動)は多数のトランシーバー(SFP類)の通常の動きを学習した上での検出となっており、結果からもわかる通り、実際のリンクダウンを予知していることがわかります。



■ laneLaserBiasCurrent(mA) 観点から事象の確認

----------------------------------------------------------------------------

次に、図1で示した2つ目の Bias Current についてですが、次の図4の通り、変化がはっきり現れている状況です。

時間帯としても先程の光受信パワーと同じ時間帯の検出になっています。

anomalies

図4 機械学習(ML)による laneLaserBiasCurrent(mA) のアノマリー検知

光受信パワーと同様に、該当のメトリックの変動も見てみると、はっきりと変化が起きていることがわかります。(図5)

anomalies 図5 laneLaserBiasCurrent(mA)メトリックの時系列データ

まとめ

機械学習を使った異常検知の例を Augtera Network AI を使って説明しました。特にネットワークに特化したアルゴリズムの開発を行っている会社であり、ネットワーク装置で異なる性質を持つメトリック(dBm という微小な変化を検出する必要もあれば、mA のように急激な変化が見られるケースもある)に対しても効率よくアノマリー検出することが可能になっています。人間が常時監視できていれば、いずれのケースでも発見は容易かもしれませんが、ソフトウェアが人間と同等レベルで、かつ膨大なデータも処理できることから、AIOps として Augtera Networks AI に注目しています。

今回、特筆すべきポイントとして、事象発生の予兆(経年劣化からの障害)を検知できたため、運用体制の Proactive 化に向けて役に立つツールであると考えています。

※「予兆検知」は対象となるメトリックの性質に左右されるため、メトリックによって十分な学習時間を確保する必要があります。

(このブログは、Augteraの"Preventing failures with Machine Learning – is that possible? Anatomy of a predictive optical anomaly "の記事を抄訳したものです)

参考リンク

Preventing failures with Machine Learning – is that possible? Anatomy of a predictive optical anomaly

※本記事の内容は執筆者個人の見解であり、所属する組織の見解を代表するものではありません。

RECOMMEND