経路可視化によるクラウドサービスの障害検知

ビジネス推進本部 第1応用技術部
コアネットワークチーム
大澤 能丈

本コラムでは、弊社事例を元にクラウドサービスの課題の1つである途中経路の障害を検知する方法について紹介させて頂きます。

クラウドの普及による新たな課題

近年、クラウドには多種多様なサービスが出てきて、当たり前のように使用されていますが、クラウドサービスの普及に伴い新たな課題に直面しています。

クラウドサービスにおいて利用者側のネットワークからサービス提供側のネットワークに到達するまで、インターネットを経由する場合が多く、そこに到達するまでの経路が分からず、経路がブラックボックス化するという課題があります。
この経路のブラックボックス化による弊害として、サービスが自社管理ではないため、仮にクラウドサービスが利用できなくなるといった障害が発生した場合、サービス側の問題なのか?途中経路のネットワークに問題があるのか?といった障害切り分け判断が困難になるという点が挙げられます。

図1:クラウドサービスの新たな課題

 

インターネット経路の可視化

弊社取扱い製品であるThousandEyes社のSaaS (Software as a Service) ベースのネットワーク可視化製品を利用することで、エンド・ツー・エンドにおけるインターネット経路の可視化が可能となります。

ThousandEyes社が世界中に設置、あるいはユーザが自社内に設置した専用エージェントを使用して、インターネットにあるターゲットサイトへのアクセス状況や経路情報を収集して、クラウド上にあるThousandEyes社のポータルにて可視化表示を行います。
これによってインターネットサイトの監視を常に行い、もし監視対象のサービスが利用できなくなった場合に、障害ポイントがサービス事業者なのか、インターネット上の途中経路なのか、自社ネットワークなのかといった切り分けが迅速に可能となります。


https://www.thousandeyes.com/ja/press-releases/japan-office-growing-international-presence

 

図2:エンド・ツー・エンドにおける経路の可視化(ThousandEyes社より提供)

 

クラウドサービスにおける障害切り分け例

ここで事例を基にしてインターネット経路を可視化した障害切り分け例を紹介します。

弊社では全社員向けにVDI(Virtual Desktop Infrastructure)による仮想デスクトップサービスを提供しています。データセンター上にあるVDIにより社内外から場所を問わず自分のデスクトップにアクセスすることが可能となり、ワークスタイルの変革に役立てています。

VDIはデータセンター上に置かれており、最初にアクセスする窓口としてVDIポータルと呼ばれるWebサーバーがあります。社内からのアクセスと、社外・すなわちインターネット経由でアクセスすることができます。このVDIポータルに障害が発生するとVDIへ接続できなくなってしまい、業務への影響度は計り知れないため、常時監視が必要となります。

弊社ではThousandEyesを使用して、VDIポータルへの社外からのアクセスと社内からのアクセスの監視を実施しています。

ある日突然、外部(インターネット経由)からのVDI接続が出来なくなりました。
弊社ではBYOD(Bring your own device)による私用PCでの接続が許可されており、多数の社員が自分のPCでVDIに接続していますが、この障害により多数の利用者に影響を及ぼしました。
利用者側の視点ではどこで問題が発生したかが分からない状況であり、管理者側においてもどこから切り分ければいいのか判断がつきにくい状況となりました。

図3:障害状況イメージ

 
この状況をThousandEyesにて確認したところ、以下の図4の上段①のようにVDIポータルへのHTTPアクセスが不可になっていることが確認できました。
さらに図4の下段②の各エージェントの接続状況を確認してみると、弊社内に設置のエージェントからは接続ができており、メーカー設置エージェントからのみ接続ができないことが確認されたため、社外からのみVDIにアクセスができないという事象と早急に特定できました。

図4:ThousandEyes によるVDIポータルへの接続状況

 
また、図5のようにネットワーク経路の可視化状態を確認すると、TCP/IPレベルでの到達性については問題が無いことが確認されました。よってインターネット上の問題ではなくVDIポータルのサービス側の問題であることが即座に判断できました。

図5:ThousandEyes による経路可視化

 
これらの切り分けを元に、調査を継続してVDIポータル側のソフトウェア不具合が判明し、無事復旧に到りました。

このようにクラウドサービスまでの経路を可視化することで、クラウド上でネットワークの問題が発生したのか、ソフトウェア(システム)の問題が発生したのかを迅速に判別できるのがお分かり頂けたかと思います。

まとめ

本コラムにて、クラウドサービス利用時における障害切り分け方法の一例について紹介しました。クラウドサービスを利用しているけれども障害ポイントの判別に困っているといった方々に対してのご参考になれば幸いです。

弊社では他にも様々なSaaSベースの管理・監視製品を取り扱っています。
ご興味ございましたら弊社担当営業にお問い合わせください。

執筆者プロフィール

大澤 能丈
ネットワンシステムズ株式会社 ビジネス推進本部 第1応用技術部 コアネットワークチーム所属

1999年 ネットワンシステムズ株式会社入社
応用技術部門にてCATVインターネット製品の技術担当に加え、最近ではクラウドベースの監視・管理製品の技術担当業務にも従事しており、新しい分野に日々奮闘中。。。
・CATV総合監理技術者
・ネットワークスペシャリスト
・情報セキュリティスペシャリスト
・CCNP

イベント/レポート

pagetop