ページの先頭です

ページ内を移動するためのリンク
本文へ (c)

ここから本文です。

データガバナンスとプライバシー保護を実現するためのデータ分類とその自動化 ~NetApp BlueXP Classification~

自社生成AI基盤や高度なデータ分析基盤の導入が増加する中、データガバナンスの維持とプライバシー保護の重要性が高まっています。本記事ではデータ管理の効率化に役立つデータ分類自動化ツールをご紹介します。

ライター:佐藤 隼人
2023年にネットワンシステムズに入社。
ストレージ製品の評価、検証、案件支援を主な業務として担当。
現在は、ハイブリッドマルチクラウド環境の管理や最適化を中心に技術検証業務に従事している。

目次

はじめに

最近のストレージのユースケースとして、生成AI基盤や高度なデータ分析基盤としての活用が増加してきている中、データの取り扱いルールや管理体制の整備、いわゆる「データガバナンス」への注目度が高まっています。また、個人情報を含むデータを利活用するうえで、プライバシー保護の観点からもデータのより厳格な管理が求められているといえます。

しかし、生成AIやデータ分析のようなユースケースで使用される膨大なデータの中から、機密情報や個人情報を正確に把握し、適切に管理・分類することは容易ではありません。そこで注目されているのがデータ分類自動化です。

一部のストレージベンダでは、ストレージに格納されたデータを監視・分析し、データ種別に応じて分類する機能・ツールをリリースしています。

図.データ分類自動化ツールのイメージ

本記事でご紹介する「NetApp BlueXP Classification(以下、BlueXP Classification)は、そんなデータ分類自動化ツールのひとつです。ここからは、BlueXP Classificationの概要、実際に使用した結果と所感をご紹介します。

NetApp BlueXPとは?

 NetApp BlueXP(以下、BlueXP)は、NetApp社のSaaS型統合管理ツールです。運用中のNetApp ONTAPシステム(以下、ONTAP)などのNetAppストレージシステムを登録することで、Web上からハイブリッドマルチクラウド環境のストレージ管理やデータの分析を行うことが可能です。BlueXPには、登録されたONTAPにログインして管理操作を行う機能や、セキュリティ機能、ライセンス管理機能など、様々な機能が搭載されています。

図.BlueXPの管理画面

BlueXPは上記のダッシュボードや本稿でご紹介するBlueXP Classificationを含むコア機能が無償で使用でき、その他の有償機能はPay-As-You-Goやサブスクリプションの形式で使用することができる形となっています。

NetApp BlueXP Classificationとは?

 BlueXP Classificationは、BlueXPに搭載された機能の一つで、登録されたNetAppストレージに格納されるファイルの内容を監視し、内容に応じてデータ種別を分類したり、取り扱いに注意が必要なデータ(個人情報など)を抽出したりすることが可能です。

図.BlueXP Classificationのダッシュボード

 上図はBlueXP Classificationで確認可能なダッシュボードです。ダッシュボード上から、「Savings Opportunities」(コスト削減の機会)や「Saved Searches」(分類された属性毎のデータ件数)、その他さまざまな分析データが確認できます。古い・関連性が薄い・重複しているデータの特定や、取扱注意なデータの確認、ファイルに対するアクセス権の確認などに分析データを活用できます。

BlueXP Classificationの仕組み

 BlueXPコネクタインスタンスとBlueXP Classificationインスタンスをデプロイし、BlueXPNetAppストレージを登録、その後BlueXP Classificationで監視したい環境(Shareなど)を登録することで格納されたファイルの監視が開始されます。

図.BlueXP Classificationの導入イメージ(ONTAPを登録する場合)

BlueXP Classificationの特長

 BlueXP Classificationの特長をいくつかご紹介します。

ハイブリッドマルチクラウド環境のデータを一括管理できる

 BlueXPにはオンプレミスだけではなく、Cloud Volumes ONTAPなどのクラウド環境にあるONTAPを登録することも可能です。そのため、複雑になりがちなハイブリッドマルチクラウド環境におけるデータ管理を一括化・効率化することができます。

取り扱いに注意が必要なデータを特定することができる

 BlueXP Classificationでデータのマッピングと分類を行うことで、個人情報をはじめとする取り扱いに注意が必要なデータを特定することができます。また、各ファイルへのアクセス権を特定することも可能なため、セキュリティリスクの低減に役立ちます。

ストレージコストを最適化できる

 アクセス頻度によるファイル分類も可能なため、アクセス頻度の低いデータを容量コストの小さいストレージに階層化するなど、コスト最適化にも活用することができます。また、ファイルの内容を分析して、重複しているデータや関連性の薄いデータを特定することも可能です。

動作検証

 今回使用した環境は以下の通りです。なお、コネクタとClassificationインスタンスについてはオンプレミスのVMware vSphere環境上にデプロイしています。

図.構成イメージ

データ分類の開始手順

 BlueXP Classificationを導入してONTAPBlueXPに登録後、BlueXP Classificationに監視対象のShareVolumeを登録することで自動的にファイルの分類が開始されます。

図.BlueXPへのONTAP登録

ShareVolumeの登録は「Configuration」タブから実行可能です。監視対象のグループとなるFiles Share Groupを作成してShareを登録します。正しく登録が完了するとScanが開始され、ファイルがマッピング・分類されます。

図.監視対象の登録・確認

監視対象が追加されると、以下の図のように各分析データが確認できるようになります。以下の例では、testというグループ内のShareに格納された30ファイルのうち、17件のファイルにPIIPersonal Identifiable Information:個人を特定可能な情報)が含まれていることが示されています。その他にも、ファイルタイプやカテゴリ毎に何件ファイルが存在するかなど、様々な分析データが確認可能です。

図.データの分析結果(コンプライアンスダッシュボード)

検証内容・結果

 BlueXP Classificationを使用して、Excelファイルに含まれる人名を特定します。

 今回の検証では、100件の人名(英名)が含まれるExcelファイル10件を分類対象として使用し、何件の人名を特定することができるか(Recall rate)を確認しました。

データ件数/ファイル

平均検出データ件数

100

70

表.結果

 結果としては、平均で70件の人名を特定することに成功しました。公式ドキュメントでは、BlueXP Classificationにおける一般的な個人情報データのRecall rate60~80%程度とされており、今回の検証における結果とおおむね一致します。

所感・想定ユースケース

 データ分類自動化ツールとしては、日本語に未対応のデータがあることや特定精度(Precision)や特定件数(Recall)に難があることなど、まだ実用にあたっての課題は多いと感じますが、古いデータや重複データの特定などストレージコスト削減にも活用できるため、利用するメリットの大きい機能だと思います。

現在BlueXP ClassificationBlueXPのコア機能として無料で使用できるため、BlueXPを使用してNetAppストレージの統合管理を行っている環境では簡単に使用できることも大きなメリットの一つです。

現状のユースケースとしては、大量のファイルを使用する環境に導入し、重複データや古いデータを特定することでストレージコストを最適化するための補助ツールとしての活用が考えられます。また、Active Directoryなどと連携することで、ファイルに対して設定された権限を特定することも可能なため、適切な権限管理が行われているかどうかを確認する用途も考えられます。

おわりに

 今回はBlueXP Classificationによる、NetAppストレージ内のファイル自動分類についてご紹介いたしました。本機能をご利用いただくことで、ストレージコストの最適化やアクセス権限管理などを統合的に行うことが可能となります。

 BlueXP及びBlueXP Classificationには今回ご紹介した機能以外にも、ストレージ管理を最適化する様々な機能がございますので、更に細かい内容はまたの機会にご紹介できればと思います。

※本記事の内容は執筆者個人の見解であり、所属する組織の見解を代表するものではありません。

RECOMMEND