個人開発者 Jamie Pine が公開したOSS音声アプリ「Voicebox」が、GitHubトレンドで日に +1,042★ のペースで急上昇し、累計 32,933★ まで伸びている。数秒の参照音声から声を複製し、23言語 で読み上げ、マイク入力を文字起こしして任意のアプリへ貼り付ける。音声の出力と入力を1本に統合した点が特徴だ。
音声合成エンジンは Qwen3-TTS・Kokoro など 7種類 を搭載し、文字起こしには OpenAI の Whisper を使う。用意済み音声も 50種類以上 利用できる。アプリは Rust 製の Tauri で構築され、macOS・Windows・Linux と各種GPUに対応する。最大の特徴は、モデル・音声データ・録音のいずれも外部に送らない端末内完結設計で、クラウドの従量課金やデータ越境の懸念が発生しない点にある。
さらに REST API と内蔵の連携サーバー(MCPサーバー)を備え、Claude Code や Cursor が `voicebox.speak` 一つの呼び出しで複製した声で話す。声の複製を担う ElevenLabs と音声入力を担う WisprFlow が握ってきた音声処理の両半分を、無料・OSSで1本にまとめた構図が注目を集めている。