Googleが音声を途切れさせず別言語の音声へ同時通訳する新モデル「Gemini 3.5 Live Translate」を公開した。開発者はプレビュー版「gemini-3.5-live-translate-preview」を呼び出し、自前アプリにリアルタイム通訳を組み込める。GoogleのDeepMindはモデルの能力や制約を説明するモデルカードを公開している。

従来の翻訳が文章単位の変換中心だったのに対し、本モデルは音声の流れを途切れさせず通訳する点を重視する。GoogleはGemini 2.5世代で音声をそのまま扱うネイティブ音声と音声合成を更新しており、その延長線上に同時通訳専用モデルを追加した。音声入出力をリアルタイムにやり取りするGemini Live APIと組み合わせて使う設計だ。

実装の構成例も共有されている。開発者の@_philschmidは、新モデルとWebアプリ開発のNext.js、音声通信基盤のLiveKit、サーバー実行環境Cloud Runを組み合わせ、話し手の音声をWebRTCで送り、Gemini Liveで通訳し、訳した音声を戻す3段構成を投稿した。会議・接客・海外コミュニケーションで、専用ハードや既存通訳サービスへの依存度を下げる動きとして位置づけられる。