声の複製も読み上げも端末内完結｜無料OSS Voicebox

AI TREND

Jamie Pine：OSS音声アプリ公開

個人開発者 Jamie Pine が公開した、声の複製・23言語の読み上げ・文字起こしをすべて端末内で完結させるOSS音声アプリ「Voicebox」が、GitHubトレンドで日に1,042★のペースで急上昇している。

3 の要点を3分で

個人開発者 Jamie Pine が公開したOSS音声アプリ「Voicebox」が、GitHubトレンドで日に +1,042★ のペースで急上昇し、累計 32,933★ まで伸びている。数秒の参照音声から声を複製し、23言語 で読み上げ、マイク入力を文字起こしして任意のアプリへ貼り付ける。音声の出力と入力を1本に統合した点が特徴だ。

音声合成エンジンは Qwen3-TTS・Kokoro など 7種類 を搭載し、文字起こしには OpenAI の Whisper を使う。用意済み音声も 50種類以上 利用できる。アプリは Rust 製の Tauri で構築され、macOS・Windows・Linux と各種GPUに対応する。最大の特徴は、モデル・音声データ・録音のいずれも外部に送らない端末内完結設計で、クラウドの従量課金やデータ越境の懸念が発生しない点にある。

さらに REST API と内蔵の連携サーバー（MCPサーバー）を備え、Claude Code や Cursor が `voicebox.speak` 一つの呼び出しで複製した声で話す。声の複製を担う ElevenLabs と音声入力を担う WisprFlow が握ってきた音声処理の両半分を、無料・OSSで1本にまとめた構図が注目を集めている。

声の複製も読み上げも端末内完結｜無料OSS Voiceboxの本文内説明図 — 図解: AIエージェント - 個人開発者JamiePineが公開した声の複製・23言語の読

押さえるポイント

この変化で何が要点か。図解と出典つきで一目で。

数秒の参照音声から声を複製、23言語で読み上げできるOSS
録音もモデルも外部に送らない端末内完結でプライバシー確保
音声合成エンジン7種を搭載、用意済み音声も50種類以上

5W1Hでサクッと理解

構造化された事実を最初に。誰が何をいつどこでなぜどのように。

誰が: Jamie Pine
何を: OSS音声アプリ公開
いつ: 2026年6月急上昇
どこで: GitHub
なぜ: ローカル完結需要
どのように: 7エンジン搭載

背景

音声合成の有料サービス ElevenLabs は「文字から音声を作る出力側」を、WisprFlow は「声を文字に変える入力側」を担い、両者は音声処理の異なる半分を握ってきた。Voicebox はこの両方を1つのアプリにまとめ、間を内蔵の小型言語モデル（ローカルLLM）でつなぐ。音声合成エンジンは Qwen3-TTS や Kokoro など7種類を搭載し、文字起こしには OpenAI の Whisper を使う。アプリは Electron ではなく Rust 製の Tauri で構築され、macOS・Windows・Linux・各種GPUに対応する。

なぜ今注目なのか

声の複製や読み上げをクラウドに頼らず、音声データを端末外に出さずに完結できる点が、プライバシーやコスト面で実務的に効く。さらに対応AIエージェント（Claude Code、Cursor など）に自分が複製した声で話させる連携機能を備え、音声の入出力を開発ワークフローに組み込みやすい。有料サービスの代替を無料・OSSで提供する構図が注目を集めている。

Voiceboxは何を1本にまとめたのか

個人開発者 Jamie Pine が公開したOSS音声アプリ「Voicebox」が、GitHubトレンドで日に1,042★のペースで増え、累計32,933★まで伸びている。特徴は、声の複製（クローン）と読み上げ（音声合成）という出力側と、マイク入力を文字起こしして任意のアプリへ貼り付ける入力側を、1つのアプリに統合した点にある。

The open-source AI voice studio. Clone, dictate, create.
出典: jamiepine/voicebox（GitHub）

上の一文は「声を複製し、口述（文字起こし）し、作る」という3機能をひとまとめにしたOSS音声スタジオ、という意味だ。声の複製を有料で提供してきた ElevenLabs が出力側を、音声入力ツールの WisprFlow が入力側を担ってきたが、Voicebox はその両半分を無料・OSSで1本にまとめ、間をローカルの小型言語モデルでつなぐ。

搭載エンジンと対応言語、端末内完結の中身

音声合成エンジンは7種類を搭載する。Qwen3-TTS、Qwen CustomVoice、LuxTTS、Chatterbox Multilingual、Chatterbox Turbo、HumeAI TADA、Kokoro である。声の複製は数秒の参照音声からでき、Kokoro と Qwen CustomVoice 経由で用意済みの音声も50種類以上使える。

対応言語は23言語で、日本語・アラビア語・ヒンディー語などを含む。文字起こしには OpenAI の Whisper を使い、アプリは Electron ではなく Rust 製の Tauri（軽量なデスクトップアプリ基盤）で構築され、macOS・Windows・Linux と各種GPUに対応する。

最も実務に効くのは、音声処理がすべて端末内で完結する点だ。モデル・音声データ・録音のいずれも外部に送られない。クラウドの従量課金が発生せず、機密音声を扱う現場でもデータ越境の懸念なしに使える。

AIエージェントに自分の声で話させる連携

Voicebox は外部から呼び出すためのREST API（プログラムから機能を使うための窓口）と、内蔵の連携サーバー（MCPサーバー＝対応AIツールが機能を呼び出すための仲介役）を備える。これにより、Claude Code や Cursor といった対応AIエージェントが、`voicebox.speak` という1つの呼び出しだけで、複製した声で話す。

さらに全システム共通のホットキー（どのアプリを開いていても効く呼び出しキー）で音声入力でき、macOS では文字起こしの結果を、いま選択中の入力欄へ自動で貼り付ける。音声の入力と出力の両方を、開発ワークフローのどこにでも差し込める設計になっている。

同名のVOICEVOXとの混同に注意

X上では、Voicebox を扱う投稿と、日本で広く使われる別ツール「VOICEVOX」（ずんだもん・四国めたん等の音声で動画を作るソフト）を使った投稿が混在している。名前が似ているが別物で、本記事の Voicebox は声の複製とローカル完結を売りにするOSSだ。

Voiceboxはオープンソースのvoice studioで、ローカルで動くフルのvoice I/Oスタックにより、voiceのクローンやspeech生成、任意アプリへのdictation、自分の声でのエージェント会話ができます。
出典: @jaxx2104（X投稿）

上の投稿が言う「voice I/Oスタック」とは、音声の入力（dictation＝口述による文字起こし）と出力（speech生成＝読み上げ）を一通りそろえた仕組みのことだ。国内で名前検索する際は、用意済み音声で動画を作りたいのか、自分の声を複製して開発ツールに組み込みたいのか、目的で使い分けたい。

今やるべきこと

立場別、明日から動ける一手。

技術を選ぶ人へ

Voicebox が搭載する音声合成7エンジンと対応23言語の一覧を、公式ドキュメントで確認する。

事業を決める人へ

AIエージェントに複製した声で話させる voicebox.speak の呼び出しを、内蔵の連携サーバー経由で試す。

時系列タイムライン

2026年6月23日 GitHubトレンドで3位に浮上、X上で『ローカルAI音声スタジオ』として紹介が拡散
2026年6月24日日に+1,042★のペースで急上昇、累計32,933★に到達

SNSの反応

OSS音声スタジオ「Voicebox」GitHub急上昇

ローカルで動く声クローン・音声合成スタジオ「jamiepine/voicebox」がGitHubトレンド3位に浮上し、+1,042★/日を記録。声の複製や多言語TTSをクラウドに頼らず端末内で完結でき、音声データを外部に送らないプライバシー設計が注目を集めている。Qwen3-TTSやKokoroなど7種の合成エンジン、23言語対応、Claude CodeやCursorといったAIエージェントに自分の複製声で話させる連携機能を備える。X上では『3位に浮上』『声クローン・多言語生成』といった機能紹介の投稿が並ぶ一方、同名の音声合成ソフト『VOICEVOX（ずんだもん等）』を使った動画投稿が多数混在しており、両者は別物。関連投稿は限定的で、公式情報を中心に状況を整理した。

みんなの反応

45%

35%

20%

『GitHub3位浮上』に注目

『ローカル完結』を評価

実用・事業利用への期待

どんな声がある？

『GitHub3位浮上』に注目 45%

GitHubトレンドで急上昇したことを取り上げる投稿が中心。「voiceboxが3位に浮上。多言語音声生成や声の制御に関わるモデル」とTTS品質や音声クローンの選択肢として紹介する声が目立つ。+1,042★/日というスピードに、有料の音声サービスを代替できるOSSとしての期待が集まっている。

🔗 GitHubリポジトリ →

『ローカル完結』を評価 35%

声のクローンや音声生成、任意アプリへの音声入力、自分の声でのエージェント会話までローカルで完結する点を評価する声。「フルのvoice I/Oスタックにより、voiceのクローンやspeech生成、dictationができる」と機能の網羅性に注目。音声データが端末外に出ないプライバシー重視の設計が実務面で支持されている。

🔗 公式サイト →

実際の投稿

I just starred jamiepine/voicebox-VoiceboxはオープンソースのAI voice studioで、ローカルで動くフルのvoice I/Oスタックにより、voiceのクローンやspeech生成、任意アプリへのdictation、自分の声でのエージェント会話ができます。

実用・事業利用への期待 20%

プライバシー重視でコンテンツ制作やAI対話、事業利用へ展開できる点に期待する投稿。「ローカルAI音声スタジオ。声クローン、多言語生成。プライバシー重視でコンテンツ、AI対話、事業へ」と、無料・OSSで有料サービスの代替を実現する構図が語られている。導入を検討する開発者層の関心が高い。

🔗 ダウンロード →

実際の投稿

【GitHub爆速トレンド】（06/23）今日の一押しは3位のjamiepine/voiceboxです。VoiceboxはローカルAI音声スタジオ。声クローン、多言語生成。プライバシー重視でコンテンツ、AI対話、事業へ。