OpenAI、音声AIのWebRTCを内製化｜低遅延で実装

OpenAIは2026年5月4日、リアルタイム音声AIを支えるWebRTCスタックをゼロから再構築したことを公式ブログで明らかにした。目的は3点に集約される。ひとつ目は低遅延、ふたつ目はグローバルスケールでの安定提供、みっつ目は人間同士の会話に近い自然なターンテイキングの実現である。

WebRTC自体はW3CとIETFで標準化されたブラウザ向けリアルタイム通信技術で、本来はビデオ会議やP2P通話を想定して設計されてきた。音声AIの用途では、ユーザーの発話検出、LLM側の応答生成、割り込み処理、音声合成の再生といった複数の処理を通信層と密に連動させる必要があり、汎用WebRTCスタックのままでは最適化の余地が大きい。OpenAIが自前で作り直したのは、この統合最適化を通信レイヤまで踏み込んで行うためだと位置付けられる。

開発者にとっての実務的影響は明確だ。OpenAIのRealtime APIはWebRTCとWebSocketの両方の接続方式を提供しており、ブラウザやモバイルからの直接接続にはWebRTC経路が推奨される。今回の刷新はその推奨経路の品質そのものを引き上げる。加えてMicrosoftのAzure AI Foundryからも同じRealtime Audio APIがWebRTC経由で利用できるため、日本企業が既存のMicrosoft調達ルートで音声AIを組み込むシナリオがそのまま強化される。

一方で、LiveKitやAgoraなど汎用リアルタイム通信基盤とOpenAIを組み合わせて使ってきた構成や、自前でWebRTCを運用してきたチームにとっては、比較対象がアップデートされたことを意味する。音声エージェント、コンタクトセンター自動化、音声UI搭載アプリを手掛ける組織は、自社構成の遅延・中断耐性・コストをこの新しい基準線で測り直す局面に入った。

OpenAI、音声AIのWebRTCを内製化｜低遅延で実装の本文内説明図 — 図解: WebRTC内製化 - 通信層とAI推論を一体化し低遅延音声を実現する仕組み

押さえるポイント

汎用WebRTCではなくOpenAI専用にスタックを内製再構築し最適化
低遅延・グローバル分散・自然なターンテイキングを同時解決
Azure AI Foundryからも同じRealtime Audio APIとして利用可能

5W1Hでサクッと理解 誰が OpenAI 
 何を WebRTCスタック再構築 
 いつ 2026年5月4日 
 どこで Realtime API全域 
 なぜ 低遅延音声AI実現 
 どのように スタックをゼロから内製 

何が起きたか

要点OpenAIが2026年5月4日、リアルタイム音声AI向けのWebRTCスタックをゼロから再構築し、低遅延・グローバルスケール・会話のターンテイキングを両立させたと公式発表した。Realtime APIおよびAzure AI Foundry経由で利用できる。

3つの視点で読む

開発現場

汎用WebRTC実装（RFC 8825等で標準化）は会議用途が前提で、LLM推論との統合やターンテイキング制御には最適化されていない。OpenAIはスタックを内製することで、音声入力の検出、割り込み処理、モデル側の応答生成を通信層と一体で制御できる構造に置き換えた。これは外部SFU/TURNベンダーや自前WebRTC実装に依存してきた開発チームの比較対象が変わることを意味する。

事業判断

Realtime APIはAzure AI Foundryからも同一プロトコルで提供されており、日本企業がMicrosoft経由で調達する既存ルートでそのまま利用できる。音声エージェント、コンタクトセンター、音声UI製品の基盤選定において、LiveKit・Agora・Twilioなど既存CPaaSに対するOpenAI直結経路の優位性が一段上がった。

リスク・ルール

WebRTCはDTLS-SRTPによるメディア暗号化がRFC 8827で規定されており、OpenAIの再構築版も同じ標準プロトコル上に載る。国内の通話録音・本人確認・個人情報保護の要件に対しては、従来のWebRTC導入で整備してきた監査観点（メディア経路、録音保存、データレジデンシー）をそのまま適用して評価する必要がある。

追い風と向かい風

追い風を受ける側

OpenAI Realtime APIを使う開発者通信層の最適化分を自前で作り込まずに受け取れ、音声AIプロダクトの遅延と会話自然さが改善する
Azure AI Foundry経由で調達する日本企業既存のMicrosoft契約・コンプライアンス枠で同じWebRTC Realtime Audioを利用できる
音声エージェント系スタートアップ低遅延・ターンテイキング制御をインフラとして前提化でき、差別化をアプリ層に集中できる

向かい風を受ける側