ページの先頭です

ページ内を移動するためのリンク
本文へ (c)

ここから本文です。

あなたのユースケースに最適な音声文字起こしサービスはどれ?主要3社を比較してみた

ライター:吉田 将大
システムインテグレータでソフトウェア開発業務を経験した後、2018年にネットワンシステムズに入社。
前職での経験を活かした開発案件の支援や、データ分析基盤製品・パブリッククラウドの導入を支援する業務に従事。
保有資格: AWS認定ソリューションアーキテクトプロフェッショナル

目次

ネットワンシステムズ 吉田です。

今回は音声文字起こしサービス3社を実際に使ってみて、入出力フォーマット、認識精度、料金などの観点でそれぞれのメリット・デメリットを比較したのでご紹介します。

音声文字起こしサービスとは?

一般的に「音声文字起こしサービス」と呼ばれるものは、音声データや動画データに含まれる音声を解析し、テキストデータに変換するサービスです。

最近はリモート会議が増加していますが、各社Web会議システムには会議内容を録画する機能が存在します。また、コールセンター業務などで通話内容を録音しているというケースも多くあると思います。

会議の録画データや通話記録には、DX(デジタルトランスフォーメーション)を加速させるための膨大な情報が含まれていますが、一般的に動画・音声データは様々なフォーマットで保存されたバイナリ形式データのため、分析用途などに使用しづらく、活用しきれずに蓄積されています。

音声文字起こしサービスを使用すると、それらの録画・録音データをデータ分析で扱いやすいテキストデータに変換し、議事録として使用したり、テキスト分析サービスと連携して会話内容からトピックを検出したり感情分析したりできます。

比較した3つの音声文字起こしサービス

今回比較したのは以下の3サービスです。

  • Amazon Transcribe
  • Google Cloud Speech-to-Text
  • AmiVoice Cloud Platform

Amazon Transcribe

Amazon Transcribeは、Amazon Web Services(以下、AWS)の音声文字起こしサービスです。
利用にはAWSアカウントが必要になります。

AWSというトップシェアのクラウドサービスの1サービスなので、ストレージサービスのAmazon S3など、利用者の多い他のAWSサービスとの連携がしやすい点が特徴になります。

https://aws.amazon.com/jp/transcribe/

Google Cloud Speech-to-Text

Google Cloud Speech-to-Textは、Googleが提供する音声文字起こしサービスです。
Google Cloud Platform(GCP)の1サービスとして提供されているため、利用にはGCPのアカウントが必要です。

GCPの他のサービスとの連携や、Googleの最新のAI テクノロジーによる音声認識が特徴です。

https://cloud.google.com/speech-to-text?hl=ja

AmiVoice Cloud Platform

AmiVoice Cloud Platformは、日本のアドバンスド・メディアという会社が提供する音声認識エンジンのクラウドサービス版です。

公式HPでは、音声認識サービスの国内シェアトップを謳っており、数多くの導入実績があります。
日本語の音声認識に特化している点が特徴です。

https://acp.amivoice.com/main/

入力・出力フォーマットの比較

まずは、変換の際の入力と出力のフォーマットの比較です。

Amazon Transcribe Google Cloud Speech-to-Text AmiVoice Cloud Platform
入力フォーマット 音声 (MP3, FLAC, Ogg, AMR, WAV)
動画 (MP4, WebM)
音声 (MP3, FLAC, Ogg, AMR, WAV, WebM Opusなど) 音声 (MP3, FLAC, Ogg, WAVなど)
1ファイルの最大サイズ 最大4時間、または2GB 最大8時間 最大2.14GB
出力フォーマット json
動画字幕: WebVTT (.vtt) および Subrip (.srt)
json json

入力データは各社主要な音声コーデックに対応しています。

変換されたテキストデータの出力は3社ともjson形式ですが、各社それぞれ独自のデータ構造で出力されます。
変換されたテキスト以外に、文章が単語毎に分割され、それぞれの再生位置(秒数)が付与される点も共通です。

特筆すべきは、Amazon Transcribeは入力ファイルとしてMP4、WebMといった形式の動画ファイルを直接指定できる点です。
その他2社のサービスは、動画ファイル内の音声データをテキストに変換したい場合は、基本的に動画編集ツールなどで事前に動画ファイルから音声データのみを抽出する必要があります。

また、Amazon TranscribeにはWebVTTやSubrip Textなどの、標準的な動画字幕データフォーマットで出力するオプションが用意されています。
これにより、動画ファイルに字幕を付けてWeb上に公開するというユースケースの場合は、音声データ抽出や、テキストデータを字幕データフォーマットに変換するための追加のアプリケーションを必要としません。

音声認識エンジンと認識精度

続いて音声認識エンジンと認識精度の比較です。文字起こしサービスにおいては、最も重要視されるポイントかもしれません。

今回は弊社の公式YouTubeチャンネルにアップロードされている動画を使ってテキストデータの文字起こしを検証しました。

Amazon Transcribe Google Cloud Speech-to-Text AmiVoice Cloud Platform
言語モデル APIリクエスト時に選択もしくは自動判別 APIリクエスト時に選択 APIリクエスト時に選択
  • 日本語(一般・医療・保険・製薬・金融、それぞれ会話または音声入力最適化モデルを選択可能)
  • 英語一般
  • 中国語一般
カスタム言語モデル 有り(日本語非対応 有り(音声適応ブースト) 無し
単語登録 有り 有り 有り
日本語標準モデルでの精度比較 語彙: △(専門的な単語に弱い)
  • 「VMware」
    →「メディア」
  • 「サーバー」
    →「鯖」
  • 「ストレージ」
    →「ストレ時」

日付表現: △
  • 「2008年」→「二千八年」など

文章全体: 〇
  • 文の途中で分割されるなどは無し

語彙: ◎(固有名詞や専門的な単語もOK)

  • 「VMware」〇
  • 「サーバー」〇
  • 「ストレージ」〇
  • 「ネットワン」〇

日付表現: 〇
  • 「2008年」

文章全体: △
  • 出力結果が文の途中で分割され、稀に認識されない音声がある
語彙: 〇(会社名などの固有名詞に若干弱い)
  • 「VMware」〇
  • 「サーバー」〇
  • 「ストレージ」〇
  • 「ネットワン」
    →「ネット」,「ワン」△

日付表現: 〇
  • 「2008年」

文章全体: 〇

  • 「ええと」「まあ」など感嘆詞がデフォルトでフィルタされる
  • 複数人での会話で正しく文字起こしできないことがある

まず、対応している言語モデルですが、Amazon Transcribe、Google Cloud Speech-to-Textは、グローバルなサービスなだけあって世界各国の数多くの言語に対応しています。

AmiVoice Cloud Platformは日本語、英語、中国語のみですが、日本語の言語モデルは、医療、金融などの業界向けに学習された日本語モデルが用意されているところが特徴です。
これにより、各業界の専門用語などの認識精度を向上させています。

3社ともデフォルトの言語モデルで認識されない固有名詞や専門用語を登録して認識されやすくするための機能を持っていますが、Google Cloud Speech-to-Textはさらに単語に重み付けなどをして細かい調整ができます。Amazon Transcribeにも言語モデルをカスタマイズする機能が存在していますが、2022年3月時点で非対応となっています。

カスタマイズしない状態でのデフォルト日本語モデルでの変換をテストした結果は、Google Cloud Speech-to-Textが最も単語の認識精度がよく、次いでAmiVoiceという印象でした。
Amazon Transcribeは固有名詞や年月日などの判別は他の2社に比較すると見劣りする点はありましたが、文章としては部分的に欠落したりすることなく正しく認識できていました。

さらにAmiVoiceの日本語モデルの特徴として、デフォルトで「ええと」や「まぁ」などの感嘆詞がフィルタリングされる点が、やはり日本語に最適化されていると感じました。
一方で、AmiVoiceでは複数人の会話の文字起こし時は、正しく文字起こしされないことがありました。こちらは2022年2月に提供開始された無料の「話者ダイアライゼーション」オプションを有効化することで改善されることが期待されます。

注意点として、認識精度に関しては、変換元の音声データの品質や会話内容に大きく依存するところがありますので、あくまでご参考程度にお考え下さい。

料金とデータプライバシー

続いてサービスの利用料金と、データのプライバシーについて比較します。
変換元の会議録画データや通話記録などには機密情報が含まれているケースでは、データのプライバシーは重要なポイントの1つです。

(米ドル/円は$1=115円で計算しています。)

Amazon Transcribe Google Cloud Speech-to-Text AmiVoice Cloud Platform
料金
(日本語標準モデル)
$0.024/分
(約 0.046円/秒)
利用量が増えると割引有り
$0.006/15 秒
(約 0.046円/秒)
ロギングあり:
$0.004/15秒
(0.031円/秒)
0.04円/秒
ロギングあり:
0.025円/秒
データプライバシー
  • サービスの提供と保守、品質向上のためのログ利用有り
  • AWS Organizaions オプトアウトポリシーを使うことで無効化可能
  • 品質向上のためのログ利用有り(デフォルト無効)
  • データロギングを有効にして、品質向上のためのデータ利用を許可すると割引あり
  • 品質向上のためのログ利用はユーザがエンジン選択時に決定
  • データロギング有りのエンジンを選択して、品質向上のためのデータ利用を許可すると割引あり

サービスの利用料金としては、それぞれ課金単位が異なりますが、1秒当たりのサービス利用料は、ほぼ同程度となりました。

Amazon Transcribeに関しては、利用量が増えれば増えるほど利用料が割引されます。利用量に応じての割引はAWSサービス全体に共通することで、大規模利用のユースケースではメリットとなります。

データプライバシーに関しては、全てのサービスでデフォルトでは変換に使用したデータを音声認識エンジンの精度向上のみに用途を限定しサービス提供者側が利用すると規約に記載があり、またこれを拒否するオプションが用意されています。(ロギング有り/無し)

Google Cloud Speech-to-TextとAmiVoice Cloud Platformは、ロギングあり(サービス利用者に認識エンジンの精度向上を目的としたデータ利用を許可)にすると、サービスの利用料金が安くなるというメリットがあります。

まとめ

どのサービスも長所・短所があり、どれが最適なサービスかはユーザのユースケースに依存すると思いますが、まとめると以下のようになります。

  • Amazon Transcribe
    • 〇クラウドサービストップシェアのAWSで、AWS内の別サービスとの連携が容易
    • 動画ファイルを入力として直接指定できる
    • 字幕データフォーマットの出力オプションがある
    • 利用料が増えるほど割引がある
    • △日本語モデルは単語登録などでカスタマイズし、精度を向上させる必要がある
  • Google Cloud Speech-to-Text
    • 〇デフォルトの日本語モデルで高精度の単語認識
    • 〇単語の重み付けなど、言語モデルの詳細なカスタマイズが可能
    • 〇サービス利用者に認識エンジンの精度向上を目的としたデータ利用を許可すると割引がある
    • △動画ファイルを文字起こしするには事前に音声データを抽出する必要がある
    • △文章の区切りが判別できずに、出力結果が文の途中で分割され、稀に認識されない音声がある
  • AmiVoice Cloud Platform
    • 〇会社名などの固有名詞を除けば、デフォルトの日本語モデルで必要十分な精度の単語認識
    • 〇デフォルトの日本語モデルの他に、各業界の専門用語などを学習させた業界特化の日本語モデルが存在する
    • 〇デフォルトで「ええと」や「まぁ」などの感嘆詞がフィルタリングされる
    • 〇サービス利用者に認識エンジンの精度向上を目的としたデータ利用を許可すると割引がある
    • △動画ファイルを文字起こしするには事前に音声データを抽出する必要がある
    • △対応言語は日本語、英語、中国語のみ

音声文字起こしサービスを利用した社内のDXを検討されている方や、サービス開発を検討されている方の参考になれば幸いです。

※本記事の内容は執筆者個人の見解であり、所属する組織の見解を代表するものではありません。

RECOMMEND