本人の顔と声でAI動画｜Gemini Omni登場

企業動向米国メガテック Gemini/Flow/Shorts 06/03 06:46

AI TREND

Google：本人アバターAI動画発表

Googleが2026年5月20日、本人の顔と声を録画してアバター化し、その本人が話す短尺動画を生成・会話編集できるGemini Omni Flashを発表し、GeminiアプリとGoogle Flow、YouTube Shortsで順次提供を始めた。

3 の要点を3分で

Googleは2026年5月20日、Gemini Omniファミリーの第一弾としてGemini Omni Flashを発表し、Geminiアプリ・Google Flow・YouTube Shortsで順次提供を始めた。最大の特徴は、ユーザーが自分の顔と声を録画してアバター化し、その本人が話す動画を生成できる点だ。画像・音声・動画・テキストを組み合わせて入力でき、会話のように指示を重ねる複数ターン編集で見た目や物理法則、シーン文脈を保つ。

DeepMindのモデルカードは、入力にテキスト・画像・動画・音声を取り、高品質な動画と音声を出力する一方、複雑な動きや正確な文字描画に限界があると明記する。公式ブログのデモには「動画の長さは10秒」というプロンプト例があり、10秒級の短尺クリップが想定される。生成物にはすべて不可視透かしSynthIDが埋め込まれ、Geminiアプリ・Gemini in Chrome・Google検索で検証できる。

利用は18歳以上・個人Googleアカウント＋Google AI plan・英語のみで、EEA・スイス・英国は当面の対象外。デベロッパー・企業向けAPIは数週間以内に提供予定とされ、アバター動画SaaSや外注の内製判断に影響する。

本人の顔と声でAI動画｜Gemini Omni登場の本文内説明図 — 図解: 本人アバターAI動画発表 - Googleが2026年5月20日本人の顔と声を録画してアバター

押さえるポイント

この変化で何が要点か。図解と出典つきで一目で。

本人の顔と声を録画して自分そっくりのアバター動画を生成できる
会話のように指示を重ねて見た目や物理法則を保ったまま編集できる
生成動画には不可視透かしSynthIDが埋め込まれ検証可能

5W1Hでサクッと理解

構造化された事実を最初に。誰が何をいつどこでなぜどのように。

誰が: Google
何を: 本人アバターAI動画発表
いつ: 2026年5月20日
どこで: Gemini/Flow/Shorts
なぜ: 動画制作の内製化
どのように: 顔と声を録画し生成

背景

記事では「GoogleがAIアバター専業の制作ワークフローをGemini側に取り込んだ」という市場角度で扱う。公式情報で確認できるのは、顔＋声の録画、Gemini Omni動画での本人アバター利用、会話による動画編集、SynthID検証、対象年齢・地域・言語の制約である。Google公式ブログのデモには「動画の長さは10秒」というプロンプト例があるが、ヘルプ上でアバター動画の最大秒数として独立明記されたものではないため、「最大10秒」と断定せず「10秒級の短尺クリップ」と表現する。

なぜ今注目なのか

本人の顔と声を使うAIアバター生成が、Googleの消費者向けGeminiとクリエイター向けFlowに入ったことで、アバター動画SaaS、広告制作、社内研修、SNS運用の外注・内製判断が変わる。

本人の顔と声がGeminiの中でアバターになった

Googleは2026年5月20日、Gemini Omniファミリーの第一弾としてGemini Omni Flashを発表し、Geminiアプリ・Google Flow・YouTube Shortsで順次提供を始めた。注目すべきは、別のアバター制作ツールを挟まず、本人の顔と声を録画してそのまま動画化できる点だ。

自分の声を使うアバター機能により、見た目も声も自分そっくりの動画を生成できる
出典: Gemini Omni を発表

上の引用にある「アバター機能」とは、ユーザーが自分の顔と声を録画して登録し、その本人が話す動画をAIに作らせる仕組みのことだ。公式ヘルプは、顔と声を録画してGemini Apps用のアバターを作成し、Gemini Omni動画で@ユーザー名として使えると明記している。入力は画像・音声・動画・テキストを組み合わせられ、会話のように指示を重ねる複数ターン編集で、見た目や物理法則、シーンの文脈を保ったまま手直しできる。

Gemini Omni Flashは何を入れて何を出すモデルか

DeepMindのモデルカードは、Gemini Omni Flashがテキスト・画像・動画・音声を入力として受け取り、高品質な動画と音声を出力するマルチモーダルモデルだと説明する。複数の素材を一度に渡して1本の動画にまとめられるのが核だ。

Omni Flashが現実素材と生成コンテンツをブレンドし、会話で反復でき、キャラクター一貫性を改善してidentityとvoiceをシーン間で保つ
出典: Gemini Omni for Google Flow

ここでの「identityとvoiceをシーン間で保つ」とは、複数の場面をまたいでも登場人物の見た目と声がブレないように揃えること。一方でモデルカードは、複雑な動きや正確な文字の描画には限界があると明記する。公式ブログのデモには「動画の長さは10秒」というプロンプト例があり、本記事ではこれを上限値ではなく10秒級の短尺クリップの一例として扱う。Google Flowでは、撮影した実写素材と生成コンテンツを混ぜて反復制作できる。

生成物には消えない透かしが入る

Gemini Omniで作成されたすべての動画には、不可視の電子透かしSynthIDが埋め込まれる。SynthIDとは、GoogleのAIモデルが生成・編集したコンテンツを見分けるための、目に見えない透かし技術のことだ。

SynthIDはGoogle AIモデルによる生成・編集を見分ける不可視電子透かし
出典: Verify AI-generated images, videos, and audio

検証はGeminiアプリ・Gemini in Chrome・Google検索で行える。本人の顔と声を複製できる機能は、なりすましや肖像・音声の無断利用という論点と切り離せない。公式ヘルプはアバター作成の条件を18歳以上・個人Googleアカウントと有料のGoogle AI plan・英語のみとし、EEA・スイス・英国を当面の提供対象外としている。検証手段と利用条件が最初からセットで提示されている点は、社内利用の可否を判断する材料になる。

外注を続けるか、内製に倒すか

SNS運用や短尺動画を内製する事業者は得をする。本人が話す10秒級クリップをGemini内で会話編集でき、撮影と外注の往復を減らせるからだ。Google Flowを使う映像クリエイターも、実写と生成を混ぜて見た目と声を保ったまま反復できる。

一方、本人の顔と声を使うアバター生成を売りにしてきた専業SaaSは、価格と機能の比較対象にGeminiが直接並ぶことになる。AI生成物を検証する編集・法務の担当者にとっては、SynthIDがGoogle検索で確認できる点が判別手段の標準化につながる。

ただしEEA・スイス・英国の事業者は当面の提供対象外で、英語のみ・18歳以上という制約も付くため、すぐには内製の選択肢に入らない。API提供を待つ国内の開発・実装担当には、数週間以内とされる企業向けAPIが組み込み準備のタイミングになる。

今やるべきこと

立場別、明日から動ける一手。

技術を選ぶ人へ

Gemini Apps公式ヘルプで18歳以上・英語のみ・Google AI plan必須・対象外地域などアバター作成の前提条件を確認する。

事業を決める人へ

本人アバター動画の内製化で、既存のアバター動画SaaSや外注ナレーションとの費用と運用負荷の差を比較する。

手を動かす人へ

数週間以内に提供予定のAPI情報と現行Geminiアプリで、10秒級クリップの会話編集とSynthID検証の挙動を試す。

時系列タイムライン

2026年5月20日 GoogleがGemini Omni Flashを発表し、Geminiアプリ・Google Flow・YouTube Shortsで順次提供を開始
2026年5月20日公式ヘルプで顔と声を録画してアバターを作成しGemini Omni動画で使える機能を明記、18歳以上・英語のみ・Google AI plan必須・EEA/スイス/英国は対象外と提示
発表後数週間以内（予定）デベロッパー・企業向けAPIの提供予定