
音声系AIを提供するElevenLabsを使ってLLMを活用した音声での対話型AIを作成します。さらに、LLMの高速推論を提供するSambaNovaとElevenLabsを連携させて、高速な音声応答システムを構築する方法についてご紹介します。
- ライター:荒牧 大樹
- 2007年ネットワンシステムズ入社し、コラボレーション・クラウド製品の担当を経て現在はAI・データ分析製品と技術の推進に従事。最近では次世代の計算環境であるGPU・FPGA・量子コンピュータに注目している。
目次
ElevenLabsについて
ElevenLabsは2022年に創業された音声AIスタートアップです。AIを活用した高精度なテキスト読み上げ(Text to Speech)や音声テキスト変換(Speech to Text)などの機能を提供しています。単なる読み上げに留まらず、感情のこもった自然な音声表現が可能で、映像作品やゲームなど実用レベルの音声品質を実現しています。日本語を含む多言語に対応しており、APIやウィジェットを通じて外部アプリケーションやWebページにも音声機能を簡単に追加できます。
機能 |
概要 |
テキスト読み上げ |
テキストを自然な音声で読み上げる |
音声テキスト変換 |
音声をテキストに変換。話者分離も可能 |
ボイスチェンジャー |
入力音声を他の音声に変換。アナウンサー風や性別を変更等が可能 |
SFX |
テキストからライオンの咆哮など、言葉以外のサウンドエフェクトを生成 |
ボイスクローン |
一定の長さの音声を提供する事で、自分の声を使った読み上げ等が可能 |
ボイスアイソレータ |
バックグラウンドノイズを削除してクリアな音声を提供 |
ボイスデザイン |
テキストを基にカスタム音声を作成。性別、年齢、キャラクター等を指定可 |
Conversational AI |
LLMを利用した対話型Agentを作成 |
ElevenLabsの利用料金について
ElevenLabsは無料プランから利用を開始できます。選択したプランに応じて月額費用が決まり、クレジットが付与されます。利用した機能の時間や回数に応じてクレジットを消費する仕組みです。利用超過分は都度請求され、頻繁に超過する場合は上位プランへの移行がおすすめです。複数人で同一環境を利用したい場合は「スケール」以上の契約が必要です。詳細は公式ページをご参照ください。
https://elevenlabs.io/ja/pricing
ElevenLabsの操作
ElevenLabsは基本的にWeb画面から操作でき、大きく「Creative Platform」と「Conversational AI」に分かれています。Creative PlatformではAIを使ってテキストや音声ファイルから音声処理を行い、Conversational AIではLLMを活用したインタラクティブな音声エージェントを作成できます。

音声応答Agentの作成
今回は、ボイスクローン機能とConversational AI機能を利用して自分の声を使った音声Agentを作成したいと思います。
ボイスクローン機能
まずは、ボイスクローン機能カスタム音声を作成します。ElevenLabsでは、登録済みの音声を利用できるほか、カスタムで読み上げ用の音声を作成することも可能です。Instant Voice Cloneでは最低10秒の音声を提供するだけで似た声を生成できます。Professional Voice Cloneではより高精度なクローンが作成でき、最低30分以上の音声提供と本人確認が必要です。今回はInstant Voice Cloneで自分の声をクローンしました。Instant Voice Cloneの画面から、音声ファイルをUploadするか、30秒程度その場で録音する事で簡単にカスタム音声が作成可能です。作成された音声は、本人には違和感がありましたが、同僚に聞いてもらったところ「かなり似ている」との評価でした。

Conversational AIでAI Agentを作成
次にLLMと連携した対話型エージェントを作成します。Conversational AIでは、音声をテキストに変換し、LLMに送信、返ってきたテキストを再び音声で読み上げます。

利用するLLMはGemini、Anthropic、OpenAIなどから選択可能で、登録済みLLMの利用料はトークン数に応じて課金されます。Custom LLMとして外部のOpenAI互換サービスとも連携可能です。Knowledge Baseとしてドキュメント等を登録しておくと、RAGを使った回答も可能です。また、外部システムとの連携(Tool連携、MCP連携)もサポートされています。作成したエージェントはWebページへの埋め込みや、SIP Trunk/Twilio連携による電話対応も可能です。Voice Tabで先ほど作成したカスタム音声を選択すると、自分の声で応答してくれるAI Agentが作成できました。
SambaNovaとElevenLabs
実際にConversational AIを利用してみると、選択したLLMによってはLLMへの音声問い合わせ後、返信までに数秒の遅延が発生することがあります。今回はSambaNovaとElevenLabsを連携させることで、よりスムーズな会話を実現しました。SambaNovaとの連携はConversational AIページのエージェント設定内、LLMセクションでCustom LLMを選択し、OpenAI API互換のSambaNovaを追加するだけです。必要なのはURL、モデル名、APIキーのみで、特別な設定は不要です。

実際にSambaNovaを利用してみると、会話のレスポンスが大きく改善され、より自然な対話が可能となりました。音声による会話の特徴として、音声読み上げ自体にある程度時間がかかるため、文章全体のテキスト生成速度はそれほど重要ではありません。それよりも、最初のトークンが出力されるまでの時間(初期応答速度)が重視されます。そのため、違いが顕著に現れるのは、質問後に最初の発話が始まるまでの時間です。このような理由から、SambaNovaの特徴である文章生成速度の向上は、音声対話の場面では効果が出にくい場合もあります。
https://elevenlabs.io/ja/blog/how-do-you-optimize-latency-for-conversational-ai
所感
ElevenLabsは高品質な音声機能を提供しており、Conversational AI機能を活用することで、従来音声で対応していた場面にもLLMを活用できるようになりました。さらにSambaNovaと組み合わせることで、違和感のないスムーズな会話が実現できる点が非常に魅力的です。
※本記事の内容は執筆者個人の見解であり、所属する組織の見解を代表するものではありません。