ページの先頭です

ページ内を移動するためのリンク
本文へ (c)

ここから本文です。

AIOps「Splunk IT Service Intelligence」によるIT運用高度化

ライター:知念 紀昭
メーカーで生産ライン業務を経験後、製品の評価・設計を担当。
その後SIerでシステム設計構築業務を経てネットワンシステムズに入社。
入社後は仮想化ハードウェア・ソフトウェアの評価・検証業務、クラウドソリューション業務などを担当。
現在は、主にデータの利活用・機械学習ビジネスを推進している。

目次

AIを活用してIT運用を高度化

従来のIT基盤の可視化・監視ソリューションは個々のサービス監視に留まっており、複数のサービスの関係性を考慮していませんでした。また静的閾値に基づく障害検知のため異常を検知できず、将来予測が困難なものでした。そのため問題発生時には大量のログを調査しなければならず、根本原因の追究まで時間と工数を要し、解決に遅れが生じることが多々ありました。

一方AIによる課題解決が様々な分野で盛んになっており、IT基盤運用の分野でもいくつかのベンダがAIを活用した製品をリリースしています。これらはAIOpsと呼ばれています。

AIOpsとは?

AIOpsとは、ガートナー社によって”Artificial Intelligence for IT Operations”つまり「IT運用のためのAI」と提唱された言葉です。またガートナー社は次のようにAIOpsを説明しています。

「AIOpsは、ビッグデータと機械学習を組み合わせて、イベント相関・異常検出・因果関係の決定などのIT運用プロセスを自動化します。」
 引用元:AIOps (Artificial Intelligence for IT Operations)_Gartner Glossary

あらゆる情報を集めて検索・可視化・分析するツールを提供し続けているSplunk社は、ITインフラに対してAIを用いた監視機能を持つSplunk IT Service Intelligence(Splunk ITSI)をリリースしました。

Splunk IT Service Intelligence (Splunk ITSI)

Splunk ITSIは、AIを活用してITインフラやサービス全体を監視・運用および分析するツールです。Splunk ITSIは各々のサービス間の関係性を定義し、異常時の影響範囲を考慮したサービス健全性スコアを算出します。サービス健全性スコアはサービスアナライザーダッシュボードで一覧表示され、問題発生時には一目で状況を把握できます。

図1:サービスアナライザーダッシュボード

サービス関連性を可視化するツリービューも用意されており、障害の影響範囲を把握できます。サービスの関連性から根本原因を推測することも可能です。

図2:サービスアナライザーダッシュボードのツリービュー

問題が起きた場合には、ダッシュボードの異常個所をクリックしてドリルダウン形式で根本原因を深く分析できます。またAIによる動的閾値での異常検知や健全性スコアの将来予測の機能により、サイレント障害や潜在的な問題を予測して警告します。

Splunk ITSIのキーコンセプト

Splunk ITSIにはキーコンセプトが4つあります。

図3:Splunk ITSIのキーコンセプト

1つ目は「サービス」です。あらゆるものをサービスとして定義できるのが大きな特徴です。例えばサーバやネットワークやストレージなどだけでなく、コストやそれに対するリターンなどビジネスサービスまでもサービスとして登録できます。今回は、2020年に掲載した「顔認証とADを活用した入退室サイバー・フィジカル・セキュリティ」サービスを例にして説明します。それぞれのサービスとサービスの依存関係を図に示します。

図4:サービス

2つ目は「サービス健全性スコア」です。これはサービスの健全性を0~100の数値で表現するもので、100が正常を、0がクリティカルを意味します。サービス健全性スコアは後述のKPIに基づいて計算されます。

図5:サービス健全性スコア

3つ目は「エンティティ」です。これは数値データを生み出す機器などの実態、つまりサーバやストレージなどのIT構成アイテムになります。サービスとエンティティを紐づけることで、そのエンティティの持つKPIがサービスに反映されます。サービスとエンティティを一対一で紐づけることができますが、スケールアウトモデルの場合には複数のエンティティを纏めて一つのサービスとして定義することもできます。

図6:エンティティ

4つ目は「KPI」(Key Performance Indicatorの略)です。KPIはサービスに直接関与する数値データとなります。例えばWebサービスの場合には、レスポンスタイムやレスポンスエラー数などが該当します。今回のサービスに当てはめた場合のKPIは図のようになります。

図7:KPI

Splunk ITSIの持つAI

Splunk ITSIでは、異常検知AIと将来予測AIが備わっています。

異常検知AIは、従来の静的閾値では検知できない「いつもとは違う」KPIの異常を動的閾値によって検出します。この機能によって、従来の監視ツールでは検知出来ないサイレント障害を検知できる可能性があります。

図8:異常検知AIの動的閾値

将来予測AIでは、サービス健全性スコアの将来の値を回帰によって求めます。依存するサービスの情報を考慮してサービス健全性スコアを算出するため、より精度の高い将来予測が期待できます。また単純な線形回帰のみならず、ランダムフォレストリグリッサーや勾配ブースティングリグリッサーなどの複雑な回帰アルゴリズムを選択できます。

図9:将来予測AI

将来のサービス健全性スコアについて、約30分後の平均ケースと最悪ケースの予測が可能となります。

図10:将来のサービス健全性スコア

最後に

今回はAIを活用したIT運用管理の高度化と、その製品の一つであるSplunk ITSIの特徴についてご紹介いたしました。次回はSplunk ITSIを用いた仮想環境の運用高度化の例をご紹介しますのでご期待ください。

※本記事の内容は執筆者個人の見解であり、所属する組織の見解を代表するものではありません。

RECOMMEND