写真と5秒音声でAIアバター｜OSS公開

「ai-avatar-system」は、写真1枚と短い音声サンプルから、任意の顔・声で会話できるアバターをリアルタイムに動かすためのオープンソース基盤である。音声合成にはXTTS v2を採用し、5秒程度のクリップから18言語以上でゼロショットの音声クローンを行う。口元の生成にはMuseTalk V1.5を使い、V100クラスのGPU上で256×256・30FPSのリップシンク動画を生成する。応答生成のLLMはClaude、GPT-4o、ローカル実行のLlama 3（Ollama）を設定で切り替える構成で、音声認識にはWhisperが組み込まれている。

運用面では、AWS g5.xlarge（A10G GPU）へのワンコマンドデプロイスクリプトが同梱され、float16推論で約2倍の高速化を行う前提が示されている。スポット利用で約$0.30/時という具体的なコスト目安があるため、自社ホスティングとクローズドなアバターSaaSの費用を同じ土俵で比較しやすい。USE_LOCAL_STORAGE=trueにすればAWS非依存のローカル開発モードでも動くため、外部クラウドに素材を置けない業種でも手元検証から始められる。

本番寄りの周辺要素としてJWT認証、Celeryによる非同期処理、Prometheus監視、Terraformによるインフラ定義が含まれる点は、個人のデモではなくチームでのPoC着手を想定した構成といえる。一方で、写真と5秒の音声だけで本人らしい顔・声を再現できる以上、同意取得、なりすまし対策、生体情報の取り扱いは導入側の設計責任になる。技術的な参照価値は高いが、商用転用時には利用規約、各モデルのライセンス、対象者の同意フローを先に詰めることが、実装着手時の最大の落とし穴になりやすい。

写真と5秒音声でAIアバター｜OSS公開の本文内説明図 — 図解: AIアバター基盤公開 - ai-avatar-systemの変換鎖と、PoC着手前に踏むべき判断ゲート

押さえるポイント

5秒の音声サンプルで18言語以上のゼロショット音声クローンが可能
MuseTalk V1.5で256×256・30FPSのリップシンク動画をリアルタイム生成
AWS g5.xlargeへワンコマンド配備、ローカル完結モードも同梱

5W1Hでサクッと理解 誰が PunithVT 
 何を AIアバター基盤公開 
 いつ 2026年4月30日 
 どこで GitHub 
 なぜ OSSでPoC促進 
 どのように XTTS・MuseTalk統合 

何が起きたか

要点写真のアップロードと短い音声サンプルから任意の顔・声で会話できるオープンソースのAIアバター基盤「ai-avatar-system」がGitHubで公開された。XTTS v2・MuseTalk・Whisper・Claudeを組み合わせ、WebSocketでリアルタイムにリップシンク動画をストリーミングする。

3つの視点で読む

開発現場

音声クローン（XTTS v2）、口元生成（MuseTalk V1.5）、LLM応答、WebSocket配信を1リポジトリで束ね、float16推論で約2倍の高速化まで実装済み。アバター会話システムを自作する際に参照できる完成形のリファレンス実装が揃った。

事業判断

AWS g5.xlarge（A10G GPU）でのスポット約$0.30/時という具体的な運用コスト前提と、USE_LOCAL_STORAGE=trueでAWS不要のローカル動作が両立する。SaaS型アバターサービスの価格を、自社ホスティングのGPU時間コストと直接比較できる材料が出そろった。

リスク・ルール

写真と5秒音声だけで本人らしい顔・声を再現できる構成のため、なりすまし・同意取得・生体情報の扱いが運用側の責務になる。ローカル完結モードの提供は、個人情報を外部APIに送れない医療・金融・行政PoCでの検証経路を確保する。

追い風と向かい風

追い風を受ける側

社内PoCを担うエンジニアアバター会話の全構成要素が1リポジトリで揃い、Terraform同梱で環境構築の初速が上がる
オンプレ・ローカル志向の業種Llama 3（Ollama）とローカルストレージモードで外部API非依存の検証経路が確保される
Anthropic / OpenAI / MetaLLMバックエンドとして3社が同列に選択肢化され、アバター用途での利用機会が広がる

向かい風を受ける側

クローズドなアバターSaaS写真+音声から同等機能を自前構築する比較対象が公開され、価格・機能の説明責任が増す
本人確認に音声・映像を用いるサービス低コストで顔・声のクローンを作れる実装が拡散し、生体認証の前提見直しが要る

今やるべきこと

技術判断 確認するリポジトリのLICENSE、MuseTalkおよびXTTS v2の利用条件、同意取得フローの設計要件を確認する

事業判断 定義する PoCの成功条件を、応答レイテンシ・1時間あたりGPUコスト・多言語品質・なりすまし防止策の4軸で定義する

実装・検証 測る g5.xlargeとローカルGPUで、エンドツーエンド遅延・FPS・同時接続数・float16有無の推論時間を測る

時系列タイムライン

2026年4月30日 GitHubで『PunithVT/ai-avatar-system』が公開（Primary language: Python、GitHub stars: 22）
公開時点 XTTS v2によるゼロショット音声クローン、MuseTalk V1.5のリップシンク、Claude/GPT-4o/Llama 3の切替、Terraform・JWT・Celery・Prometheusを含む構成を同梱
公開時点 AWS g5.xlarge向けワンコマンドデプロイとUSE_LOCAL_STORAGE=trueによるローカル完結モードを提供