日本語TTSを自社製品に｜2B音声モデルが商用可

AI TREND

OpenBMB：VoxCPM2公開

OpenBMBが、トークナイザフリーの拡散自己回帰型TTSモデル「VoxCPM2」をHugging Faceで公開した。20億パラメータで30言語(日本語含む)に対応し、48kHz音声をApache-2.0ライセンス・商用利用可で出力する。

3 の要点を3分で

OpenBMBが、トークナイザフリーの拡散自己回帰型TTSモデルVoxCPM2をHugging Faceで公開した。20億パラメータで30言語(日本語含む)に対応し、48kHzのスタジオ品質音声を出力する。Apache-2.0ライセンスで商用利用が可能で、VRAM約8GBで動作する。

実用機能として、参照音声なしで声を作るVoice Design、短い音源からの声クローン、5〜10分の音声でのSFT/LoRA微調整が揃う。RTX 4090でRTF約0.3、Nano-vLLM加速時は約0.13と、リアルタイムストリーミングが成立する水準にある。アーキテクチャはMiniCPM-4をバックボーンに、AudioVAE V2による16kHz→48kHz超解像を内蔵する。

バージョンはv2.0.0が2026-04-06、最新のv2.0.3が2026-05-11でストリーミングが改善された。日本語が標準対応し商用可という条件が揃ったことで、日本語TTSを自社製品に組み込む際の言語追加コストとAPI従量課金の両方を抑える選択肢として現実的になった点が重要だ。

日本語TTSを自社製品に｜2B音声モデルが商用可の本文内説明図 — 図解: VoxCPM2公開 - OpenBMBがトークナイザフリーの拡散自己回帰型TTSモデル

押さえるポイント

この変化で何が要点か。図解と出典つきで一目で。

30言語対応・日本語含むTTSが商用可Apache-2.0で公開
参照音声なしで声を作るVoice Designと声クローンに対応
約8GB VRAMで動作、RTX4090でRTF約0.3のリアルタイム

5W1Hでサクッと理解

構造化された事実を最初に。誰が何をいつどこでなぜどのように。

誰が: OpenBMB
何を: VoxCPM2公開
いつ: 2026年4〜5月
どこで: Hugging Face
なぜ: 日本語TTS内製化
どのように: Apache-2.0で配布

背景

VoxCPM2は2025年に公開されたVoxCPM（arXiv:2509.24650）の後継にあたります。MiniCPM-4をバックボーンとし、200万時間超の多言語音声データで学習されています。アーキテクチャはLocEnc→TSLM→RALM→LocDiTから成るトークナイザフリーの拡散自己回帰方式を採用しています。音声VAEにはAudioVAE V2を用い、16kHz入力から48kHz出力への超解像を内蔵します。

なぜ今注目なのか

30言語対応で言語タグ不要、参照音声なしで自然言語の説明から声を生成できる「Voice Design」、短い音源からの声クローン、5〜10分の音声でのLoRA微調整など、実用機能が一括で揃っています。Apache-2.0で商用利用が許され、RTX 4090でRTF約0.3のリアルタイムストリーミングが可能なため、日本語TTSを自社製品に組み込む選択肢として検討しやすい点が重要です。

商用可のApache-2.0で日本語TTSの分岐が動いた

OpenBMBが公開したVoxCPM2は、20億パラメータ・30言語(日本語含む)・48kHz出力のTTSモデルを、Apache-2.0ライセンス・商用利用可で提供する。約8GB VRAMで動作し、RTX 4090でRTF約0.3(実時間の0.3倍で生成)、Nano-vLLM加速時は約0.13まで下がる。

2B/48kHz/30言語(日本語含む)/参照音声なしのVoice Design+ゼロショットクローン。約8GB VRAM・商用可(Apache-2.0)。v2.0.0=2026-04-06、最新v2.0.3=2026-05-11(streaming改善)。
出典: openbmb/VoxCPM2 (Hugging Face)

ここで効くのは「日本語が標準対応していること」と「商用可であること」が同時に揃った点だ。日本語TTSを製品に組み込む際、言語追加コストとAPI従量課金の両方を抑える選択肢が現実的になった。

トークナイザフリー＋5〜10分でLoRA微調整できる中身

VoxCPM2はMiniCPM-4をバックボーンに、200万時間超の多言語音声データで学習されている。アーキテクチャはLocEnc→TSLM→RALM→LocDiTから成るトークナイザフリーの拡散自己回帰方式で、音声VAEにはAudioVAE V2を用い、16kHz入力から48kHz出力への超解像を内蔵する。

実用面の要は2つある。1つは参照音声なしで自然言語の説明から声を作るVoice Design、もう1つは短い音源からの声クローンだ。さらに5〜10分の音声でSFT/LoRA微調整ができるため、特定話者の声を後から追加する運用が手元のGPUで完結する。ONNX変換版やMLX量子化版(8bit/4bit)もコミュニティから公開され、動作環境の幅が広がっている。

有償APIの従量課金優位が一部削られる

日本語TTSを内製したい国内プロダクト開発者は得をする。日本語が標準対応・商用可・約8GB VRAMで動くため、API課金を抑えつつ自社環境に音声合成を組み込める。

声クローンやキャラクターボイスを扱う制作現場も得をする。5〜10分の音声でLoRA微調整でき、Voice Designで参照音声なしの声設計もできるため、話者バリエーションを手元で増やせる。

一方、発話量課金型の有償TTS APIは、量が増えるほど効く従量課金の優位を一部削られる。

そして、声の権利管理が未整備の組織は手間が増える。短い音源からの声クローンが容易になるぶん、同意取得や用途制限を定義しないまま使うと運用リスクが表面化する。

今やるべきこと

立場別、明日から動ける一手。

技術を選ぶ人へ

Apache-2.0で内製する場合と有償TTS APIの単価・レイテンシ差を、自社の想定発話量で比較する。

事業を決める人へ

声クローン機能を使う際のクローン元音声の利用許諾と出力音声の用途範囲を定義する。

手を動かす人へ

RTX 4090相当のGPUで日本語生成のRTFと48kHz出力品質を、Nano-vLLM有無で測る。

時系列タイムライン

2025年 VoxCPM(arXiv:2509.24650)が公開
2026年4月6日 VoxCPM2 v2.0.0公開(30言語・日本語対応・Apache-2.0)
2026年5月11日 v2.0.3公開、ストリーミング生成を改善
公開後 ONNX変換版・MLX量子化版(8bit/4bit)がコミュニティから公開

情報ソース

openbmb/VoxCPM2 (Hugging Face) 一次公式
OpenBMB/VoxCPM (GitHub) 公式技術
VoxCPM 論文 (arXiv:2509.24650) 技術
Nano-VLLM for VoxCPM 技術
VoxCPM2 README 公式
ONNX版モデル配布 ONNX版モデル配布
実装コード: VoxCPM/README.md at main · OpenBMB/VoxCPM 実装コード
実装コード: Releases · OpenBMB/VoxCPM 実装コード

ツールの記事

読み込み中...

日本語TTSを自社製品に｜2B音声モデルが商用可

OpenBMB：VoxCPM2公開

押さえるポイント

5W1Hでサクッと理解

背景

なぜ今注目なのか

商用可のApache-2.0で日本語TTSの分岐が動いた

トークナイザフリー＋5〜10分でLoRA微調整できる中身

有償APIの従量課金優位が一部削られる

今やるべきこと

時系列タイムライン

関連動画

情報ソース

人気記事ランキング

ツールの記事

OpenBMB：VoxCPM2公開

関連リンク

背景

なぜ今注目なのか

商用可のApache-2.0で日本語TTSの分岐が動いた

トークナイザフリー＋5〜10分でLoRA微調整できる中身

有償APIの従量課金優位が一部削られる

時系列タイムライン

SNSの反応

関連動画

関連コンテンツ

関連キーワード

関連するAIトレンド記事

情報ソース

人気記事ランキング

ツールの記事