Webエンジニア向けプログラミング解説動画をYouTubeで配信中!
▶ チャンネル登録はこちら

【ITニュース解説】2025 Voice AI Guide: How to Make Your Own Real-Time Voice Agent (Part-1)

2025年09月21日に「Dev.to」が公開したITニュース「2025 Voice AI Guide: How to Make Your Own Real-Time Voice Agent (Part-1)」について初心者にもわかりやすく解説しています。

作成日: 更新日:

ITニュース概要

2025年版リアルタイム音声AIエージェント自作ガイドPart-1では、オープンソース技術で人間のように話すAIエージェントの作り方を紹介。音声認識、LLM、音声合成、フレームワークといった主要コンポーネントと、それぞれのおすすめモデル(Faster-Whisper、Llama 3.3、Kokoro-82M、Pipecat)を選定し、その理由を解説する。次回は統合とデプロイを扱う。

ITニュース解説

リアルタイム音声エージェントの構築について、システムエンジニアを目指す初心者にもわかるように解説する。近年、オープンソースの技術を使うことで、人間のように自然に聞き取り、考え、話す音声エージェントを自分で作れるようになった。この技術は、音声認識(Speech-to-Text: STT)、大規模言語モデル(Large Language Model: LLM)、音声合成(Text-to-Speech: TTS)という三つの主要な要素で構成される。これらの要素が連携することで、まるで人間と会話しているかのような体験が実現する。

まず、ユーザーが話す音声をテキストに変換する部分がSpeech-to-Text(STT)である。音声は連続した音波であり、どこからどこまでが一つの単語や文なのかを区切るのは難しい。そこで重要になるのが、Voice Activity Detection(VAD)、すなわち「音声活動検出」技術だ。VADは、ユーザーがいつ話し始め、いつ話し終えたかを正確に検知し、エージェントが会話を途中で遮ったり、逆にユーザーの沈黙を延々と待ってしまったりするのを防ぐ。多くのVADモデルがある中で、記事ではSilero VADが「ゴールドスタンダード」として推奨されている。これは、非常に低い遅延(レイテンシ)で動作し、高い精度を持ち、6000以上の言語に対応し、かつ軽量であるため、リアルタイム音声エージェントには理想的な選択肢だ。

VADによって音声の開始と終了が特定されたら、その音声データはSTTモデルに渡され、テキストに変換される。STTモデルを選ぶ際にはいくつかの重要な基準がある。最も基本的なのは「精度」で、どれだけ正しく単語を認識できるかを単語誤り率(WER)という指標で測る。WERが低いほど精度が高い。また、単語だけでなく文全体の意味を正しく捉えられるか、様々な言語に対応しているか、背景のノイズや異なるアクセント、話し方の違いにも対応できるか、といった点も重要になる。そして、リアルタイム音声エージェントにとって特に重要なのが「ストリーミング」対応と「低レイテンシ」だ。一般的なSTTモデルは、全ての音声が話し終わってからまとめてテキストに変換する「バッチ処理」が多いが、リアルタイム会話では、話し手が話している最中にも次々とテキストが出力される「ストリーミング」処理と、300ミリ秒から500ミリ秒といったごく短い時間で応答が返ってくる「低レイテンシ」が不可欠である。オープンAIが開発したWhisperモデルはSTT分野で非常に有名だが、記事ではその最適化版である「Faster-Whisper」が推奨されている。Faster-Whisperは、元のWhisperと同等の精度を保ちながら、最大12.5倍も高速で、ストリーミング処理とサブ200ミリ秒の低レイテンシを実現できるため、リアルタイムエージェントに適している。

次に、STTによって変換されたテキストは、音声エージェントの「脳」にあたる大規模言語モデル(LLM)に送られる。LLMは、ユーザーからのテキスト入力(プロンプト)、これまでの会話履歴、文脈を理解し、適切な応答を生成する役割を担う。音声エージェント用のLLMに求められるのは、高速な応答生成能力と、外部のツール(検索エンジン、RAGシステム、APIなど)を呼び出して情報を取得したり特定の機能を実行したりする能力だ。例えば、ユーザーが「今日の天気は?」と尋ねたら、LLMは天気予報APIを呼び出して情報を取得し、その結果に基づいて応答を生成できる必要がある。主要なオープンソースLLMとしては、Meta社のLlamaファミリー、Mistral、Qwen、Google Gemmaなどがある。記事では、Meta社の「Llama 3.3 70B」が選定されている。これは、非常に長い会話履歴を記憶できる「広いコンテキストウィンドウ」を持ち、ツール呼び出し機能が組み込まれており、オープンソースコミュニティで広くサポートされている点が評価されている。これにより、エージェントは過去の会話内容を忘れずに、より複雑で自然な対話が可能になる。

LLMが生成したテキストの応答は、今度はText-to-Speech(TTS)モデルに渡され、エージェントが人間のような声でユーザーに話しかける音声に変換される。TTSの品質は、音声エージェントのユーザー体験を大きく左右する。ぎこちないロボットのような声では、せっかくの会話も台無しになってしまう。TTSに求められるのは、STTと同様に「低レイテンシ」であること、そして「自然な音声」であること、さらに「ストリーミング出力」が可能であることだ。ストリーミング出力とは、文全体が生成されてから音声が出力されるのではなく、LLMがテキストを生成するのと並行して、TTSも音声を生成し始めることで、会話の途切れをなくし、よりスムーズな対話を実現する技術である。試された多くのオープンソースTTSモデルの中で、記事では「Kokoro-82M」が推奨されている。このモデルは、競合モデルと比較して非常に軽量(300MB未満)でありながら、高い音質を保ち、サブ300ミリ秒という超低遅延で動作し、ストリーミングに特化した設計になっているため、自然な会話フローを実現する。ただし、他のモデルに見られる「ゼロショット音声クローン」(数秒の音声サンプルから新しい声を作り出す)機能はない点が特徴である。

さらに、STT、LLM、TTSといった個別のステップを統合し、音声入力から直接音声出力を行う「Speech-to-Speech(S2S)」モデルも登場している。S2Sモデルは、これらの一連の処理を一つのモデルで完結させることで、遅延をさらに削減し、よりシームレスな会話体験を目指す最先端の技術だ。Kyutai-LabsのMoshiなどがこの分野の注目モデルとして挙げられている。

最後に、これらのSTT、LLM、TTSといった個々の部品(モジュール)を一つにまとめ上げ、リアルタイムでスムーズに連携させるための「フレームワーク」が必要になる。フレームワークは、音声ストリーミングの管理、各モジュール間のメッセージの受け渡し、全体の処理の流れ(オーケストレーション)を担う「接着剤」のような役割を果たす。オープンソースのフレームワークとしては、Pipecat、Vocode、LiveKit Agentsなどがある。記事では「Pipecat」が強く推奨されている。Pipecatは、音声エージェントの構築に特化して設計されており、「ストリーミングファースト」(最初から低遅延なリアルタイム処理を前提とした設計)であること、モジュール性が高くモデルの入れ替えが容易なこと、そして「スマートターン検出V2」(会話の区切りをより賢く判断する機能)や割り込み処理が組み込まれていることなど、リアルタイム音声エージェントにとって非常に重要な機能が充実している。これにより、本番環境でサブ500ミリ秒という超低遅延での音声間応答が可能となり、数千人規模の同時ユーザーにも対応できる拡張性を持つ。

この記事では、リアルタイム音声エージェントを構築するための主要な技術スタックとそれぞれのモデルについて解説した。次のステップでは、これらの要素をPipecatフレームワークを使ってどのように統合し、具体的な音声アーキテクチャを設計し、実際にデプロイするかについて、さらに詳しく掘り下げていく。加えて、RAG(検索拡張生成)やメモリ機能といった高度な技術を使って、エージェントをさらに賢くする方法も紹介される予定だ。これらのステップを経て、誰もが実際に展開できるリアルタイム音声エージェントの構築が可能になる。

関連コンテンツ

関連IT用語

【ITニュース解説】2025 Voice AI Guide: How to Make Your Own Real-Time Voice Agent (Part-1) | いっしー@Webエンジニア