
Databricksからデータの可視化の仕組みとして新しくAI/BIがリリースされました。今回はAI/BIについての説明とNetOneの実際のデータを使ってデータの可視化を行います。
- ライター:荒牧 大樹
- 2007年ネットワンシステムズ入社し、コラボレーション・クラウド製品の担当を経て現在はAI・データ分析製品と技術の推進に従事。最近では次世代の計算環境であるGPU・FPGA・量子コンピュータに注目している。
目次
Databricks AI/BIについて
Databricks AI/BIはデータの可視化をDashboardで行い、データとの対話をGenieで行います。それぞれ専用のUIを備えており、BIツールを使う場合に面倒に感じるデータ抽出や可視化設定が生成AIの力を借りて簡単に行えるようになっています。市場にはデータと生成AIを組み合わせたツールも出ていますが、生成AIにデータ理解させるには不十分でした。AI/BIではDatabricksのプラットフォームでデータ処理が完結している為様々な付加情報を元にデータの可視化を効率的に行えるようになっています。内部的には役割毎にファインチューンされたAI agentが連携してビジネスの質問に答える仕組みとなっています。また、Databricksの通常の機能と同様にユーザベースで無く、データの処理時間をベースとした課金体系となっているため誰でもライセンス関係なく利用が可能です。
AI/BI Dashboardについて
AI/BI DashboardはDatabricksでは以前はLakeviewと呼ばれていた機能が元になっています。基本的なBIツールとしてデータ可視化、ダッシュボード機能、クロスフィルタリング、PDF等でのエキスポート等を備えています。特徴的なのは、データの可視化方法の推薦や、自然言語を通じての可視化の指示が可能となっています。
AI/BI Dashboardを使った可視化
AI/BI Dashboardを使って実際のデータを可視化します。今回は外部公開されているNetOneの4半期毎の決算データを使用します。データタブでUnity Catalogに保存されたTableを指定後、可視化を追加するとボックスが表示されデータ可視化の候補と自然言語での指示が行えます。

今回は可視化候補の中から、Show revenue by quarterを選びました。グラフを描画する為の細かい指示はAIが実施してくれ承認を選ぶと反映されます。反映後に変更を加える事も可能です。

推奨される分析をどんどん選んでいくと、数回のクリックでそれらしいダッシュボードが作成されました。

Genieについて
Dashboardで解決しない場合はGenieでの対話的なデータ処理や可視化が可能となります。Genieではチャット形式データの参照と可視化が出来ます。GenieはTableのデータ自身の外に、3つのデータを参照しながらSQL文を自動生成します。1つめはTableの説明文と、各列の説明を参照します。2つ目はGeneral Instructionで、ユーザーが事前に記述して置いたデータの利用例や、細かな説明を利用します。3つめはExample SQL Queries中で、指示と実際のSQL文例を参照します。これらのデータを元にGenieはSQL文を生成します。生成された、SQL文は参照可能で、修正も出来ます。このSQL文から得られたデータを元にAuto Visualizeで可視化も自動的に行えます。Genieは今の所可視化に特化している為、分析や予測に関する問い合わせを行った場合は回答を拒否します。
実際のデータを使ってのGenieでのデータとの対話
NetOneがDatabricks Marketplaceに公開しているNetOne Valleyのセンサーデータを元にGenieを使ってみます。今回のデータには温度、湿度、人数や空気品質に関するセンサーデータが含まれています。様々なエリアのデータが1年程度蓄積されており、データ量としては2億行程度となっています。
Genieのセットアップ
Genieが利用するデータとして、Unity Catalogに保存されているTableを追加します。

サンプルの質問を追加しておくとユーザーが後で利用可能です。
これでセットアップは完了です。
Genieでの可視化の開始
Genieセットアップ完了後、Genieのチャットインターフェースが表示されます。先ずは、先ほど入力したサンプル質問が候補として出てきます。

最近2カ月で各エリアに訪れた人数の日毎の最大値を教えてもらいます。

データの下に表示されているShow Generated Codeを押すと自動生成されたSQLが表示されます。

同じ位置にあるAuto Visualizeボタンを押して可視化します。積み上げグラフで表示されました。

折れ線表示の方が良さそうなので依頼します。

次はもう少し複雑で、あいまいな指示をします。「今日不快と感じるエリアはありますか?」と質問をします。温度と湿度から不快指数を計算して75以上のエリアを表示してくれました。

大分複雑なSQL文を生成してくれています。

所感
DatabricksのAI/BIは今の所データの可視化に特化していますが、データを取得して可視化する時に大変なSQL文の作成等をAIが自動的に実施してくれます。利用していると分析や将来予測を動的にやって欲しくなりますが、今は保存されているデータに対する処理にとどまっています。Unity Catalogに保存されている関数を呼び出す事も出来ますので、これを上手く利用すれば選択の幅はもう少し広くなりそうです。今回実際利用してみると、カラム名はスペース無しの英語で入れておくと、SQL文等の生成時のミスが少なくなりました。また、自然文を利用すると最近や、2週間以内等の時間を元にしたワードでの指示がどうしても多くなります。その場合は現時刻を起点としたSQL文を生成する為、データは毎日取り込む等のリアルタイムなデータの方が処理は上手くいきました。
※本記事の内容は執筆者個人の見解であり、所属する組織の見解を代表するものではありません。