音声を途切れず同時通訳｜Gemini新モデルでアプリ自作

AI TREND

Google DeepMind：同時通訳モデル公開

Googleが音声を途切れさせず別言語の音声へ同時通訳する新モデル「Gemini 3.5 Live Translate」を公開し、開発者がプレビュー版を使ってリアルタイム通訳アプリを構築できるようになった。

3 の要点を3分で

Googleが音声を途切れさせず別言語の音声へ同時通訳する新モデル「Gemini 3.5 Live Translate」を公開した。開発者はプレビュー版「gemini-3.5-live-translate-preview」を呼び出し、自前アプリにリアルタイム通訳を組み込める。GoogleのDeepMindはモデルの能力や制約を説明するモデルカードを公開している。

従来の翻訳が文章単位の変換中心だったのに対し、本モデルは音声の流れを途切れさせず通訳する点を重視する。GoogleはGemini 2.5世代で音声をそのまま扱うネイティブ音声と音声合成を更新しており、その延長線上に同時通訳専用モデルを追加した。音声入出力をリアルタイムにやり取りするGemini Live APIと組み合わせて使う設計だ。

実装の構成例も共有されている。開発者の@_philschmidは、新モデルとWebアプリ開発のNext.js、音声通信基盤のLiveKit、サーバー実行環境Cloud Runを組み合わせ、話し手の音声をWebRTCで送り、Gemini Liveで通訳し、訳した音声を戻す3段構成を投稿した。会議・接客・海外コミュニケーションで、専用ハードや既存通訳サービスへの依存度を下げる動きとして位置づけられる。

押さえるポイント

この変化で何が要点か。図解と出典つきで一目で。

音声を文章単位でなく流れのまま自然に同時通訳する専用モデルが登場
開発者が「gemini-3.5-live-translate-preview」で自前アプリに通訳機能を組込み可能
GoogleのDeepMindが仕様をまとめたモデルカードを公開

5W1Hでサクッと理解

構造化された事実を最初に。誰が何をいつどこでなぜどのように。

誰が: Google DeepMind
何を: 同時通訳モデル公開
いつ: 2026年6月20日報
どこで: Gemini API
なぜ: 音声通訳の部品化
どのように: プレビュー版API提供

背景

Googleはこれまでも音声を直接扱う「ネイティブ音声（Native Audio）」モデルを段階的に強化してきた。Gemini 2.5世代では音声理解と音声合成（テキストから音声を生成する技術）を更新し、自然な発話に近づけてきた。今回はその延長線上に、話している言葉をその場で別言語に変換する専用モデルが追加された。従来の翻訳は文章単位の変換が中心だったが、本モデルは音声の流れを途切れさせずに通訳する点を重視している。

なぜ今注目なのか

音声を入力すると即座に別言語の音声で返す仕組みは、会議や接客、海外コミュニケーションの体験を大きく変える可能性がある。開発者が自前のアプリにこの通訳機能を組み込めるため、専用ハードや既存サービスへの依存度が下がる。自然さと低遅延を両立した同時通訳が標準部品化に向かう動きとして注目される。

音声を途切れさせない同時通訳という狙い

Googleが音声をなめらかに同時通訳する新モデル「Gemini 3.5 Live Translate」を公開した。開発者はプレビュー版「gemini-3.5-live-translate-preview」を呼び出し、リアルタイム翻訳アプリを構築できる。GoogleのDeepMindは仕様をまとめたモデルカード（モデルの能力や制約を説明する資料）を公開している。

従来の翻訳は文章単位の変換が中心だった。本モデルは音声の流れを途切れさせず、話している言葉をその場で別言語に変換する点を重視する。

Fluid, natural voice translation with Gemini 3.5 Live Translate
出典: Fluid, natural voice translation with Gemini 3.5 Live Translate

この公式タイトルにある「fluid（なめらか）」「natural（自然）」が、本モデルが文章ごとの逐次翻訳ではなく、会話の流れを保った通訳を目標にしていることを表している。

ネイティブ音声強化の延長線にある位置づけ

Googleはこれまでも音声を直接扱う「ネイティブ音声」（テキストを介さず音声をそのまま処理する仕組み）モデルを段階的に強化してきた。Gemini 2.5世代では音声理解と音声合成（テキストから音声を生成する技術）を更新し、自然な発話に近づけてきた。

Gemini 2.5 Native Audio upgrade, plus text-to-speech model updates
出典: Gemini 2.5 Native Audio upgrade, plus text-to-speech model updates

上の更新は、音声をそのまま扱うネイティブ音声と、テキストから音声を作る音声合成の両方を強化したものだ。今回の「Gemini 3.5 Live Translate」は、その延長線上に同時通訳専用モデルを追加した形になる。音声入出力をリアルタイムにやり取りする「Gemini Live API」と組み合わせて使う設計で、音声理解・通訳・音声生成を一本のストリームで扱う方向に進んでいる。

通訳アプリの作り方の構成例

実装に近い構成例も共有されている。信頼できる開発者 @_philschmid は、新しいGemini Live Translateと、Webアプリ開発フレームワークのNext.js、リアルタイム音声通信基盤のLiveKit、Googleのサーバー実行環境Cloud Runを組み合わせた通訳アプリの作り方を投稿した。

Build a realtime translation app with the new Gemini Live Translate, Next.js, LiveKit and Cloud Run.
出典: Build a realtime translation app with the new Gemini Live Translate

投稿で示された流れは次の3段だ。