Googleは2026年5月20日、Gemini Omniファミリーの第一弾としてGemini Omni Flashを発表し、Geminiアプリ・Google Flow・YouTube Shortsで順次提供を始めた。最大の特徴は、ユーザーが自分の顔と声を録画してアバター化し、その本人が話す動画を生成できる点だ。画像・音声・動画・テキストを組み合わせて入力でき、会話のように指示を重ねる複数ターン編集で見た目や物理法則、シーン文脈を保つ。
DeepMindのモデルカードは、入力にテキスト・画像・動画・音声を取り、高品質な動画と音声を出力する一方、複雑な動きや正確な文字描画に限界があると明記する。公式ブログのデモには「動画の長さは10秒」というプロンプト例があり、10秒級の短尺クリップが想定される。生成物にはすべて不可視透かしSynthIDが埋め込まれ、Geminiアプリ・Gemini in Chrome・Google検索で検証できる。
利用は18歳以上・個人Googleアカウント+Google AI plan・英語のみで、EEA・スイス・英国は当面の対象外。デベロッパー・企業向けAPIは数週間以内に提供予定とされ、アバター動画SaaSや外注の内製判断に影響する。