自律ネットワーク運用の実現に向けたOODAループ実装検証

2026.05.25

　ネットワンシステムズでは継続してITインフラ運用の自動化/自律化に取り組んでおり、今回は自律ネットワーク運用の実現に必要な「OODAループ」をシステムに実装し、通信品質の低下検知から復旧までを自律的に行う環境を構築しました。

　本構成はJANOG57 in OSAKAにてブース展示も行いました（2/11~13 「JANOG57 in Osaka」出展のお知らせ | ネットワンシステムズ）。自律ネットワークに関しては注目度も高く、多くの方に足を運んでいただきました。本記事ではその際に展示したアーキテクチャの全体像や技術的な仕組みについてご紹介します。

[JANOG57 in Osakaでのブース展示写真]

ライター：牛込　翔平: 2014年にネットワンシステムズへ入社。
社内外向けのサービス開発/運営やDX推進に従事。
現在は運用高度化をテーマにした技術支援を担当しています。

1. ネットワーク運用における課題と目指す姿

　現在のネットワーク運用では、ユーザーからの問い合わせを起点に、運用者が調査・検証・対応を進めるのが一般的です。しかし、システムの複雑化により調査や判断の難易度が高まり、関係者の増加とともに復旧までの時間が長期化する傾向があります。そういった課題に対し、AIや自動化を活用し、運用プロセス全体の時間短縮と属人性の低減を目指しました。

　今回、自律運用のプロセスを以下の4つのサイクル（OODAループ）として定義し、AIと自動化を用いて連動させるシステム構成としています。なお、今回の構成では、すべてをAIに任せるのではなく、システムが状況判断と対応案の提示を行い、最終的な実行判断は人間が承認する仕組みにしております。

[Autonomous Operation Loopイメージ図]

Observe（モニタリング/オブザーバビリティ）
システム状態を継続的に観測・把握
Orient（イベント管理/インシデント検知）
異常を検知し、重要度を整理
Decide（分析・意思決定/シミュレーション）
原因究明と対応策の検討、影響評価
Act（行動）
実際の変更適用、修復アクションの実行

2. シナリオ：AIによる品質劣化検知から復旧

　今回構築したシナリオは、「リンクダウン」のような明確な障害ではなく、検知や切り分けが難しい「通信品質の低下（遅延・パケットロス）」をテーマにしました。なお、本シナリオはあらかじめ想定したネットワーク構成および障害パターンを前提とした検証シナリオです。あらゆる通信品質低下の事象に対して正しく検知・分析できるわけではなく、AIによる原因特定や対応案の精度も、ユースケースや与えるコンテキストに大きく依存します。

検知から復旧までは以下の①-⑥の流れで行われます。

[デモシナリオの要素と各要素での実施事項]

① 異常検知

Webサーバーへの通信において、特定のリンクでパケットロスが発生します。システムを監視しているオブザーバビリティツールが通信品質低下を検知し、自動的にインシデント管理ツールに対しインシデントを起票します。

② AIによる原因調査

インシデント起票をトリガーに、ワークフローが起動しAIエージェントが自律的に調査を開始します。原因調査は役割分担された複数のサブエージェントによって実行されます。各サブエージェントは「物理層」「レイヤ2/レイヤ3」「ログ分析」などの観点を担当し、調査に必要な情報を自律的に判断、収集、分析します。今回のシナリオでは「物理や経路には問題ないが、特定リンクの転送データ量に乖離がある」ことを突き止め、被疑箇所を特定しています。

③ 修復コードの生成

AIは特定した原因に基づき、通信を迂回させるための修復コードを自動生成します。今回のシナリオでは被疑箇所となるリンクを迂回させるため、特定インターフェースをシャットダウンさせるコードを自動生成しています。

④ ステージングでのシミュレーション

AIが生成したコードをいきなり本番適用するのはリスクが高いため、まずはステージング環境で自動検証します。処理は自動化ワークフローツールにて制御され、「設定が正しく投入されるか」「設定投入後に通信要件（インテント）が満たされているか」を確認し、その際のネットワーク状態をネットワークデジタルツイン環境のスナップショットとして保存します。

⑤ 人間による確認と承認

この工程で初めて人間が関与します。ここまでの①-④の内容（調査内容、生成コード、テスト結果）がインシデント管理ツールから運用者に通知されます。運用者はそれらの内容を確認し、本番環境への修復コードを適用して問題なければ「承認」します。

⑥ 本番適用

本番環境への適用が承認されると、自動化ワークフローツールにより本番環境へ修復コードが適用されます。その結果、ネットワーク品質が回復します。

①～⑥のプロセスにおいて、人が関与するのは⑤の確認と承認作業のみとなります。それ以外はシステム側で自動/自律的に処理され、検知から復旧までが行われます。

3. 実装のポイント

今回のデモ構築にあたり、技術的に工夫したポイントは以下の通りです。

ポイント①：役割分担されたAIエージェント群

　AIへの依頼に際し、単一のAIプロンプトですべてを解決しようとせず、AIエージェントに依頼するタスクを細分化しています。特に原因調査を行うエージェントでは「物理層チェック担当」「レイヤ2/レイヤ3チェック担当」「ログ分析担当」のようにエージェントを分け、それぞれが必要なコマンド（showコマンド等）を自律的に判断・実行・解釈するアーキテクチャを採用しています。これにより、調査/分析精度の向上を図っています。

ポイント②：生成AIへのコンテキスト注入

　調査/分析精度向上のため、ネットワーク構成情報（トポロジ情報、各機器の設定情報）や自動化コードの標準フォーマットなどのコンテキスト（前提知識）を事前に与えています。今回はネットワークに特化したようなAIモデルを使用していませんが、コンテキストにより構文エラーの少ない、実行可能なコードを生成する確率を上げています。

ポイント③：ネットワークデジタルツインを用いた検証

　生成AIが作ったコードを信頼しきるのではなく、ネットワークデジタルツインの技術を用い、事前確認のステップを取り入れています。確認観点は「コードがエラーなく実行され設定が投入できるか」というだけでなく、「意図した通信経路になっているか」を確認し、人間の承認判断をサポートします。また、設定投入した際のネットワーク状態をスナップショットとして保持することで、ネットワークの挙動を人間が後から確認できるようにしています。

4. まとめ、展望

　本記事では、ネットワークの通信品質低下に対する対応を題材に、AIと各種ツールを連携させた自律ネットワーク運用の検証を行いました。設定変更を伴う対応をAIに任せる懸念を前提とし、AIによる分析・提案に対して人間による最終判断を組み込むことで、現実的に運用へ組み込める自律化の形を模索しました。一方で、今回は特定の障害シナリオおよびネットワーク構成を前提としたものであり、AIによる分析や判断の精度についても、まだ改善の余地が大きい段階にあります。

　また、近年はAI機能や運用高度化を謳うツールが数多く登場していますが、それらを単体で導入するだけでは、AIの価値を最大化することは難しく、運用プロセス全体の効率化に繋がりにくいのが実状です。個々のツールを点で使うのではなく、運用対応におけるどのステップにAIを組み込み、どこを人が担うのか、さらに検証や承認といったガバナンスも含めて“流れ”として設計することが重要だと考えています。

　最後に、JANOG57のブース展示においても多くのご質問をいただき、この領域の注目度の高さを感じるとともに多くの方々が検討段階にある状況かと思います。本記事でご紹介した仕組みは、ネットワンシステムズで提供する体験型施設「Innovation Showcase」にて実際のデモをご覧いただくことが可能です。
2026年6月には「Innovation Showcase」のメニュー改定も予定しており、具体的なデモを通じ、皆さまの疑問や課題を共有いただきながら、今後のネットワーク運用をご一緒に考えていければと思います。

ご関心がございましたら、ぜひお気軽にお問合せください。

※本記事の内容は執筆者個人の見解であり、所属する組織の見解を代表するものではありません。

お問い合わせはこちら

OTHER CATEGORY