音声AIをWebRTCで実装｜Nova Sonic公式手順

AWSは2026年5月14日、機械学習ブログでAmazon Nova 2 SonicとAmazon Kinesis Video Streams WebRTCを組み合わせたリアルタイム音声ストリーミングアプリの構築手順を公開した。Nova Sonicはspeech-to-speechの統合モデルで、テキスト変換を介さずに音声入出力を扱い、HTTP/2の双方向ストリーミングで接続する。

記事ではWebRTCをトランスポートに据えるアーキテクチャが示されている。クライアントはSRTPで音声を送出し、サーバー側でVAD（音声区間検出）を適用してから Nova Sonicへ流すことで、無音区間の不要なトークン消費とノイズによる誤認識を抑える設計になっている。VADはWebRTCVAD、Silero VAD、Pyannote VADの3種が選択肢として提示され、Python側のWebRTC実装にはaiortcが用いられる。

音声フォーマット面では、ブラウザ由来のステレオ・48kHz・Int16の信号を、モノラル・16kHz・Float32へ3段階で変換する必要がある点が明記されている。サンプリングレート変換はそのままでは認識精度に影響するため、サンプルコードのAudioDataAdaptionドキュメントが参照ポイントになる。

実装サンプルとして、スマートホーム制御とコネクテッドビークル向けの2シナリオがGitHubで公開されている。前者はAWS IoT Core向けのMCPサーバーと連携し、後者は車載UXを想定する。RAGやStrands Agentsとのツール連携も示されており、ドメイン知識の注入や複数ツール呼び出しを伴うエンタープライズ用途への拡張パスが確認できる。日本の開発現場にとっては、ブラウザ・モバイル・IoT機器をまたぐ音声体験を、AWSスタック内で一貫して構築できる参照実装が増えた意味を持つ。

音声AIをWebRTCで実装｜Nova Sonic公式手順の本文内説明図 — 図解: AIエージェント - ブラウザの生音声がspeech-to-speechに届くまでの4つのゲート

押さえるポイント

Nova SonicがHTTP/2双方向ストリームでspeech-to-speech応答を行う構成を公開
サーバー側VADでノイズ除去とトークン削減を両立する実装パターン
音声フォーマットはステレオ→モノラル・48kHz→16kHz・Int16→Float32の3段変換が必須

5W1Hでサクッと理解 誰が AWS 
 何を 音声AI構築手順公開 
 いつ 2026年5月14日 
 どこで AWS ML Blog 
 なぜ 低遅延音声実装支援 
 どのように Nova Sonic+WebRTC 

何が起きたか

要点AWSがNova 2 Sonicとamazon Kinesis Video Streams WebRTCを組み合わせたリアルタイム音声ストリーミングアプリの構築方法を公式ブログで公開し、スマートホームとコネクテッドビークルの2サンプルをGitHubで提供した。

3つの視点で読む

開発現場

音声入出力をテキスト変換を介さず統合モデルで処理するspeech-to-speechアーキテクチャに、WebRTC（SRTP）の低遅延伝送とサーバー側VADを組み合わせる構成が公式手順として整理された。aiortc・WebRTCVAD・Silero VAD・Pyannote VADの選択肢が示され、実装者は自前でシグナリングや音声変換パイプラインを設計する負担が減る。

事業判断

AWSがフルマネージドのKinesis Video Streams WebRTCとサンプルコードを同時提供することで、クロスブラウザ・モバイル・IoTで動く音声AIをAWSスタック内で完結できる導線が整った。OpenAI Realtime APIやGoogleのGemini Live系など競合する音声AI APIに対し、IoT Core連携やMCPサーバーの公開サンプルでエッジ・車載・スマートホーム領域の取り込みを狙う配置になっている。

リスク・ルール

音声データの扱いは個人情報保護や録音同意など各国法制の対象になる。WebRTCのSRTP暗号化とAWSリージョン選択で物理的な処理境界を制御できる点は、国内事業者がデータ所在を説明する際の材料になる。

追い風と向かい風

追い風を受ける側

音声AIを組み込むSaaS・IoTスタートアップWebRTCシグナリングとVAD・フォーマット変換の参照実装が揃い、PoC着手の初期コストが下がる
AWS既存ユーザー（Bedrock/IoT Core/KVS利用企業）既存のIAM・ネットワーク設計の中でNova SonicとMCPサーバーを組み合わせやすい
車載・スマートホーム機器ベンダーconnected-vehicleとsmart-homeのサンプルが提供され、ドメイン特化の実装着手点ができた

向かい風を受ける側

独自音声パイプライン（STT+LLM+TTS）SIer案件speech-to-speech統合モデルとサンプルにより、3段構成の優位性が遅延・実装量の両面で縮む
他社Realtime音声API単体提供ベンダーWebRTCトランスポートとIoT/MCP連携までセットで提示されたため、ストリーミング配信部分の差別化が縮む

今やるべきこと

技術判断 確認する Nova Sonicの提供リージョン、HTTP/2双方向ストリーミングのクォータ、Kinesis Video Streams WebRTCの同時セッション上限と権限境界を確認する

事業判断 定義する音声体験のPoC成功条件を「初回応答までの遅延」「VADによる無音区間トークン削減率」「対応端末（ブラウザ/モバイル/車載）」で定義する

実装・検証 試す公開サンプルのsmart-homeとconnected-vehicleをデプロイし、48kHz→16kHzリサンプリング後の認識精度とWebRTCVAD/Silero/Pyannoteの誤検出率を測る

時系列タイムライン

2026年5月14日 AWS ML BlogがNova Sonic + WebRTCの構築手順とサンプル公開を告知
公開時点 GitHubでsample-nova-sonic-speech2speech-webrtcリポジトリ、smart-home/connected-vehicleサンプル、IoT Core向けMCPサーバーサンプルが利用可能
今後 RAG・MCP・Strands Agentsを組み合わせたドメイン特化の音声エージェント実装が想定される