It is the top of the page

Link for moving within the page
To text (c)

このウェブサイトではサイトの利便性の向上のためにクッキーを利用します。サイトの閲覧を続行されるには、クッキーの使用にご同意いただきますようお願いします。
お客様のブラウザの設定によりクッキーの機能を無効にすることもできます。詳細はこちら

The main part starts here.

  1. ナレッジセンター
  2. Net One BLOG

二重化しているのに通信断が・・・VMware SD-WAN (VeloCloud) のHAとPPPoE回線の注意点

Net One BLOG
エンタープライズネットワーク

写真:渡部 満幸

渡部 満幸

本記事のワード一覧

みなさまこんにちは。
ネットワンシステムズの渡部です。

今回はVMware SD-WAN (旧VeloCloud)におけるHigh Availability(HA)構成とWAN回線の組み合わせに関する注意点を紹介します

※2020年10月頃、VMware SD-WAN by VeloCloudはブランド変更によりVMware SD-WANに改称されました。
 機能、ハードウェア等は全く同じのまま、名称だけが変更されています。

VMware SD-WAN Edgeの冗長構成についておさらい

ここで簡単にVMware SD-WAN Edge(以下、Edge)で冗長構成を組む方法についておさらいしておきましょう。

何度か紹介していますが、VMware SD-WANでは以下3種類の形態から1つを選択して機器冗長を実現します。

1. VMware SD-WAN独自のHigh Availability(HA)構成
2. VMware SD-WAN独自のCluster構成
3. VMware SD-WANと他メーカ機器でVirtual Router Redundancy Protocol(VRRP)による冗長構成

そして、1 の独自技術HAはさらに2つのパターンが存在しています。

HA Option 1 : Standard (標準) HA

HA Option 2 : Enhanced (拡張) HA

今回紹介するのはOption 1 : Standard HA構成のケースです。

Enhanced HAに関する詳しい説明は本記事では省略します。
また別の機会に紹介できればと考えていますが、気になる方は下記のドキュメントを参照ください。

SD-WAN Edge の高可用性の構成
https://docs.vmware.com/jp/VMware-SD-WAN/4.2/VMware-SD-WAN-Administration-Guide/GUID-EA611881-ACE2-4944-885D-B43A52DCF143.html


Option 1 : Standard HAの概要

図1 : Standard HA概要

上記のように、Standard HAは全く同じ機種、Version、Configuration、回線接続を持つ2台のEdgeで構成するモードです。
そのため図1のようにWAN回線側にL2 Switchのような通信を透過する機器を設置する必要があります。

Standby側Edge(図中のEdge-B)はHA Linkを除くすべてのポートをブロック状態にし、Active側Edgeに何らかの問題が発生したことをHA Link上で検知すると、すべてのポートのブロックを解除しActiveへ昇格します。
同時に、問題が発生した旧Active側Edge(図中のEdge-A)はStandbyに降格されます。

Active/Standbyの切り替わりが発生するメカニズム(条件)

・Link UpしているLANポートの数が、Active側よりもStandby側のほうが多くなったとき。
  例. Active EdgeのLANポートでLink Downを検知した。

・Link UpしているWANポートの数が、Active側よりもStandby側のほうが多くなったとき。
  例. Active EdgeのWANポートでLink Downを検知した。

・Standby側EdgeでHA LinkのLink Downを検知したとき。
  例. Active側Edgeの電源が切れた。
   ※このケースはいくつかの複雑な説明が必要なパターンのため、今回は説明を省略します。

なお、自動切戻り動作(Preemption)は発生しない実装になっています。

上記は全て自動判定で行われ、ユーザが設定で動作を変更することはできません。

そして、VMware SD-WANのHAではPPPoEセッション情報をActive/Standbyの2台のEdgeの間で同期していません。

Active EdgeがStandbyに降格する際、PPPoEセッションをクリア(切断処理)しません。

Active/Standbyが切り替わった際、PPPoEセッションは新たにActiveに昇格したEdgeから張り直します。

ここまでの説明で、経験豊富で勘の良い読者の方は、この記事で言いたいことを理解してしまったかもしれません。

日本のPPPoE回線の都合

ここで日本のPPPoEインターネット接続サービスの仕様について少し紹介します。

PPPoE回線でインターネットに接続するためには、ユーザ名とパスワードを使用した認証が必要です。
ほとんどのインターネットサービスプロバイダで、この認証機構には以下のような制限があります。

・同一ユーザ名を利用して接続可能なPPPoEセッション数は、1本に制限されている

・PPPoEセッションが正常に終了されなかった場合、約5分間(インターネットサービスプロバイダによっては更に長時間)、PPPoEサーバ側に古いセッション情報が残り続ける

上記の制限は全てのPPPoEインターネット接続サービスにおいて設定されているわけではありません。
個別の回線仕様に関しましては、各サービス提供企業の情報をご確認ください。

本題 : そして通信断 - Standard HAと、切り替わりと、PPPoEと -

ここまでお話ししてきたことを総合すると、ある特定の条件で長時間の通信断が発生する可能性があることが見えてきます。

具体的に見ていきましょう。

パターン1 : Active側EdgeのLANポートがLink Downを検知 (LANポートの数 Active Edge < Standby Edge となったケース)

図2 : Edge-AのLANポートがLink Down

前述のActive/Standby自動切り替わり条件に合致するため、Edge-Aは全てのポートをブロック状態にし、Edge-BにActiveの役割を手渡します。
それと同時に、Edge-Bは全てのポートのブロック状態を解除し、新たにPPPoEセッションを張ろうとします。

図3 : Edge-BがActiveになるが・・・

しかし、Edge-AはStandbyに降格する前にPPPoEセッションを正常に切断するパケットを送信しないため、PPPoEサーバ側に古い情報が残ったままEdge-BがActiveに昇格します。
この状態では古いPPPoEセッションがサーバ側でタイムアウトするまでの間、Edge-Bは新たにPPPoEセッションを確立できません。

パターン2 : Active側EdgeのWANポートがLink Downを検知 (WANポートの数 Active Edge < Standby Edge となったケース)

図4 : Edge-AのWANポートが1つLink Down

前述のActive/Standby自動切り替わり条件に合致するため、Edge-Aは全てのポートをブロック状態にし、Edge-BにActiveの役割を手渡します。
それと同時に、Edge-Bは全てのポートのブロック状態を解除し、新たにPPPoEセッションを張ろうとします。

図5 : Edge-BがActiveになるが・・・

しかし、Edge-AはStandbyに降格する前にPPPoEセッションを正常に切断するパケットを送信しないため、PPPoEサーバ側に古い情報が残ったままEdge-BがActiveに昇格します。
この状態では古いPPPoEセッションがサーバ側でタイムアウトするまでの間、Edge-Bは新たにPPPoEセッションを確立できません。

パターン3 : Active側Edgeの電源が切れた

いい加減くどいので省略します。

まとめ

今回ご紹介した動作は、お客様と当社が一緒に検証を実施した際に実際に起こった事例です。

また、その検証の中で「Active/Standbyが切り替わった際、必ずしも長時間の通信断が発生するわけではなかった」というところが、注意していただきたいもう一つのポイントです。

このHA切り替わりとPPPoE回線と通信断は、100%の再現性があるわけではなく、何らかの条件が重なった場合に発生していると考えられます。

このブログを書いている時点で確実にわかっていることは

・VMware SD-WANのStandard HA構成では、Edge間でPPPoEセッション情報を同期する仕組みは実装されていない
・VMware SD-WANのStandard HA構成では、Active/Standbyの切り替わり発生時にPPPoEセッションを一度切断して張りなおすという仕組みは実装されていない
・長時間の通信断が発生している状況では、PPPoEサーバ側に古いセッション情報が残っていると推測されるフレームをWAN回線側で受信している

ということです。

この記事でみなさんにお伝えしたかったのは、VMware SD-WANのStandard HA構成と、現在の日本のPPPoE回線を組み合わせて利用する場合に、このような問題が起こる可能性がある、ということです。

そのため、WAN回線のうち少なくとも1本は接続制限などが設定されていない回線の利用をおすすめします。

また、VMware SD-WANでPPPoE回線を複数利用したStandard HA構成を検討中のお客様におかれましては、このような仕様上の制限事項がある点についてご注意いただきたいと思います。

ところでみなさん、フレームとパケットの違いはご存じですか?

それではまた次回お会いしましょう。

免責事項

VMware SD-WAN Version 4.1.1における動作です。
今後のアップデートにより動作が変更される可能性があります。

※本記事の内容は執筆者個人の見解であり、所属する組織の見解を代表するものではありません。

カテゴリ関連記事