ページの先頭です

ページ内を移動するためのリンク
本文へ (c)

ここから本文です。

主要Web会議サービスの要約機能を徹底比較:今求められる会議効率化とその先にあるもの

AIで会議要約を自動作成し、生産性を高める方法とは?
ZoomやWebexなどの主要Web会議サービスを比較し、現状のAIによる会議要約の課題と解決策をわかりやすく解説します。

ライター:吉田 将大
システムインテグレータでソフトウェア開発業務を経験した後、2018年にネットワンシステムズに入社。
前職での経験を活かした開発案件の支援や、データ分析基盤製品・パブリッククラウドの導入を支援する業務に従事。
保有資格: AWS認定ソリューションアーキテクトプロフェッショナル

目次

会議要約の重要性と背景

新型コロナ以降、急速に普及したWeb会議ですが、手軽に参加者を招待して開催できる一方で、社内外を問わず「会議が増え過ぎて生産性が落ちている」「会議が連続して自分の業務が進まない」といった声もしばしば聞かれます。

会議がオンライン化されたことにより、議事録や録画を残す習慣も一般化しつつあり、会議内容をあとから素早く振り返りたいというニーズが急増しています。

そんな中注目されているのが、音声認識+生成AIを用いた会議の要約機能です。

  • 録画した動画を全部見返すのは時間がかかる
  • 会議の「どの部分が重要だったか」を簡潔に知りたい
  • チーム内の情報共有を効率化したい

これらのニーズを解決すべく、各社が様々なサービスを提供しています。

本記事では、主要サービスが提供する「文字起こし+要約」の現状を比較したうえで、ビジネスの現場で浮上する共通の課題と、今後求められる機能を整理していきます。

AI会議要約の仕組み

サービスの比較に入る前に、改めてAIによる会議要約というのはどういった仕組みで行われているのかについて簡単にご説明します。

まず、会議を要約する大まかな仕組みとしては、

  1. 音声認識(自動文字起こし)
  2. テキスト解析(自然言語処理)
  3. 要約(生成AIなどを活用)

の大きく3つのステップに分けられます。

1. 音声認識(自動文字起こし)

Web会議サービスなどで録音された音声は、AIによる音声認識エンジン(ASR: Automatic Speech Recognition)を通して自動文字起こしされます。
このとき、話者が複数いる場合は「話者分離」や「音声特徴量の識別」などを実施して、誰が何を話したか区別できるシステムもあります。

2. テキスト解析(自然言語処理)

音声から文字起こしされたテキストデータは、自然言語処理(NLP)の技術を使って内容を解析します。
文ごとにトピックを推定したり、キーワードの抽出や重要度を判定します。
ここでは会話に登場する固有名詞や数値、日時などを抽出し、「何が重要なのか」を機械的に判断します。

3. 要約(生成AIなどを活用)

最後に、「生成系AI(Large Language Model など)」や「抽出型要約アルゴリズム」を用いて、全体の要点をわかりやすくまとめるステップに入ります。

  • 生成型要約: AIが文章全体の流れや文脈を学習し、新たに自然な日本語で要約文を生成する。
  • 抽出型要約: テキストから重要な文やキーワードを抜き出す。

最近はChatGPTに使われているような高度な言語モデルの活用によって、
箇条書き形式のサマリーや、会議結果に基づく「ネクストアクション」を含む要約を自動生成できるようになってきました。

以上がAIによる会議要約の仕組みです。

では、実際のサービスについてみていきましょう。

AI会議文字起こし・会議要約の現状

AIによる会議文字起こしや会議要約には、PCにインストールして使用するエージェント型のものや、ボイスレコーダーなどのハードウェア製品として提供されるものなど様々なツールが存在します。

しかし、新型コロナ過以降、Web会議を利用中のユーザであれば、Web会議サービスに統合されている自動文字起こしや要約機能を利用するのが最も導入がスムーズです。

本ブログでは、2つのWeb会議サービスを比較し、それぞれの機能の違いや、共通の課題などについて深掘りしていきたいと思います。

Web会議サービスの文字起こし・要約機能

今回は、以下の2サービスについて、それぞれ文字起こしと要約機能を比較しました。

  • Zoom
  • Cisco Webex

今回の比較検証は、音声の文字起こしと会議要約結果のみに着目するため、以下のような手順で行いました。

  1. 事前に録音された会議音声ファイルを用意する。
  2. 各Web会議サービスで会議を開始し、画面・音声共有をした上で会議音声ファイルを再生する。
  3. 各サービスで録画を実施し文字起こし・会議要約を生成する。

今回は、「事前に録音された会議音声ファイルを使用する」という条件と、アフターコロナでの現地 +リモートのハイブリッドな会議形態を想定して、会議参加者情報に紐づいた話者識別機能などはあえて無効にし、一律に同一ソースで要約がどの程度正しく生成されるかを検証しています。

今回の検証では、「とあるウェビナー開催に関する事前ミーティング」などのいくつかの会議音声ファイルを使用しています。

比較結果

比較項目 Zoom の要約 Cisco Webex の要約
1. 出力形式・全体構成 見出しや段落を用いた文章構成型
複数の章立てでテーマを整理し、
末尾に「次のステップ」などをまとめる形式。
箇条書き中心のメモ形式。
「ミーティングメモ」と「アクション事項」の2段構成で、時系列順にポイントを簡潔に列挙する形式。
2. 要約の粒度・長さ 長文・詳細志向
会議の中で触れられた投票結果や予算など、具体的数値まで含まれている。
短文・要点凝縮
数字などの細部を残すよりも、要点を1行~数行以内にまとめること優先。
3. アクションアイテムの扱い 詳細かつ具体的(担当部署・予算)で、実務にも活用しやすい
「ネクストアクション」を明示
「アクション事項」を箇条書きで簡潔に提示
細部の背景や担当範囲は必要に応じて補足
4. 全体的な読みやすさ 段落+見出しで構造化が明確
情報量が多いため、一読に少し時間がかかる
箇条書きがメイン
短時間で要点を把握しやすい
背景や文脈は省略されがち
5. 適した利用シーン 会議内容を詳細に記録し、後で参照・分析したい場合
結果だけでなく背景や経緯を共有するドキュメント化にも向く
簡潔に会議結果を共有し、必要なら詳細を問い合わせる想定
短時間でポイントをチェックしたい場合に最適
6. 全体の特徴・まとめ レポート風の完成度が高い要約
「提案・背景・数値」など多角的に情報を網羅し、最後にアクションリストをまとめる
メモ型の簡易要約
ポイントを素早く列挙し、アクションリストは短文
短い時間で全体像を把握可能

Zoomにおける会議要約は、「見出しと段落」構成を多用し、背景や数値、提案内容などを詳しく書き込む傾向があります。会議後に詳細なレポートを残したり、多面的な情報を共有したりする場合に適しています。

[Zoomによる要約例(抜粋)]

ウェビナーの構造とプレゼンテーション計画

チームは、プレゼンテーションやウェビナーのレイアウトと構造について話し合います。
紹介、質問を含むメイントピック、写真の表示を含むフォーマットに合意します。
プレゼンテーションは約15〜25分間続きます。

今後のイベントや会議を計画します

チームは、対面とオンラインの両方のオプションを検討し、将来のイベントや会議の計画について議論します。

ネクストアクション

・チームメンバー全員が、8月12日(水)午後8時のスタッフミーティングの準備をしてください。
...

一方でCisco Webexは、シンプルな箇条書きをメインとした短文スタイルで、要点を素早く読めるのが利点です。経営会議やクイックレポートなど、短時間でポイントだけ把握したい場面に向いていると感じました。

[Cisco Webexによる要約例(抜粋)]

ミーティングメモ

プログラム番組の予定時間は20分から25分ほどの短いものを想定している。
オンラインとリアルの統一や判断基準について検討が必要
オンラインでの会議がリアル会議よりも実施しやすいという意見が出た。
...

アクション事項
・12日水曜日の20時に会議を設定すること

Zoomでは会議の全容がわかりやすくまとめられていることを重要視しているのに対し、Cisco Webexでは、「何が決まったか」「どのような意見が出たか」というエッセンスに情報が絞られている印象を受けました。

比較から見えたAI会議要約の課題

ここまで複数のWeb会議サービスや要約ツールを比較してきましたが、実際に運用するうえでは、以下のような課題が懸念されます。

業界特有の用語や略語

今回の検証は一般的な内容の会議だったため発生しませんでしたが、医療・建築・IT業界などの専門用語や略語を多用する会議では、一般的な音声認識モデルでは誤変換が頻発してしまう可能性があります。

そのため、音声認識エンジンに社内用語辞書を追加したり、業界別に特化させたAIモデルを学習・導入するといった対応が必要になります。

関連する外部情報の参照

今回の検証の中で感じたのは、AIが会議のコンテキスト(文脈)を理解するための外部情報が不足しているという点です。

例えば、そもそもの会議体の存在目的や、前回までの決定事項などの情報がその会議の中で語られなかった場合、それは要約の文脈として含められず、結果として読み手に誤った情報を伝えてしまう可能性があります。

近年注目されているRAG(Retrieval-Augmented Generation)技術を使えば、大規模言語モデルと既存の社内ドキュメントを連携させ、より正確で文脈豊かな要約を実現可能です。

前回の会議の議事録や社内の組織情報、会議で使用されたプレゼンテーション資料などが参照できれば、ただの文字起こしの要約を超えたアウトプットとなり、それは組織に新たな助言を与える、「もう一人のメンバー」になり得ます。

会議サービスに依存した要約フォーマット

生成される出力フォーマットが、それぞれの企業や団体の必要としている形式に合っているかということは、要約機能を導入する上で重要な判断基準です。

今のところ、要約フォーマットはそれぞれのWeb会議サービスごとに異なり、ユーザがカスタマイズしたりすることはできないようです。

要約に生成系AIを使用している場合、要約のスタイルやレイアウトは「どのような指示(プロンプト)を与えるか」に大きく左右されます。プロンプトを最適化する「プロンプトチューニング」ができれば、要約フォーマットの調整が可能になります。

課題解決に向けて: 録画管理サービスのアプローチ

ネットワンの録画管理サービスは、ZoomやCisco Webex、Microsoft Teamsなどの、複数のWeb会議サービスの会議録画データを一元管理するサービスであり、コンプライアンス目的のデータの長期保存や、録画データの利活用促進を実現するものです。

ここに現在新たに実装を検討しているのが、ユーザに最適化された一元的な会議要約機能です。

複数のWeb会議サービスベンダーの会議録画データを自動で収集し、文字起こしから要約に至るまでをシームレスに行えます。

Web会議サービスに依存しない統一されたフォーマット

仮にユーザがユースケースに応じて複数のWeb会議サービスを使用している場合、会議要約はそれぞれのWeb会議サービスで出力され、要約フォーマットもばらばらのものになります。

録画管理サービスでは複数の会議サービスの録画データを1つのプラットフォームで一元管理しているため、異なる会議サービスで実施されたすべての会議において、統一されたフォーマットで要約を作成することが可能です。

また、今使用しているWeb会議サービスを変えずに、新たな録画データ管理と会議要約作成のレイヤーを追加できます。

ユーザに最適化された会議要約

ネットワンの録画管理サービスの会議要約機能では、日本語に最適化された音声認識エンジンや、日本国内でのユースケースに合わせた要約フォーマットを使用します。

また、ユーザに合わせた音声認識モデルの選択や、要約プロンプトのチューニングなどのオプションも検討しています。

まとめ

Web会議サービスの会議要約機能は、コロナ以降の急速なオンライン化の流れと生成AIの登場によって大きく進化を遂げてきました。一方で、業界固有の専門用語や略語への対応前回会議の情報や社内ドキュメントを参照する機能、ユーザに最適化された要約フォーマットなど、まだまだ課題が残っています。しかし、今後のAI技術の発展により、会議要約の精度や活用範囲はさらに広がっていくでしょう。

ポイントは「自社や組織に合った要約機能をどう取り入れるか」。

単純にAI要約を導入するだけでなく、音声認識モデルのカスタマイズや、生成AIの要約プロンプトの調整なども視野に入れることで、会議議事録作成と情報共有をより強力にサポートできます。

今後は、企業の様々な業務システムとの連携を深め、会議の記録とアクションに関する一連のフローを自動化・効率化していく動きや、過去の会議記録をナレッジとして蓄積し、企業の意思決定に活用していく動きも活発になると考えられます。

現時点の機能や課題を踏まえつつ、各社が提供するソリューションを比較検討することで、より最適な形で会議要約AIを活用できるはずです。

※本記事の内容は執筆者個人の見解であり、所属する組織の見解を代表するものではありません。

RECOMMEND