OpenBMBが、トークナイザフリーの拡散自己回帰型TTSモデルVoxCPM2をHugging Faceで公開した。20億パラメータで30言語(日本語含む)に対応し、48kHzのスタジオ品質音声を出力する。Apache-2.0ライセンスで商用利用が可能で、VRAM約8GBで動作する。

実用機能として、参照音声なしで声を作るVoice Design、短い音源からの声クローン、5〜10分の音声でのSFT/LoRA微調整が揃う。RTX 4090でRTF約0.3、Nano-vLLM加速時は約0.13と、リアルタイムストリーミングが成立する水準にある。アーキテクチャはMiniCPM-4をバックボーンに、AudioVAE V2による16kHz→48kHz超解像を内蔵する。

バージョンはv2.0.0が2026-04-06、最新のv2.0.3が2026-05-11でストリーミングが改善された。日本語が標準対応し商用可という条件が揃ったことで、日本語TTSを自社製品に組み込む際の言語追加コストとAPI従量課金の両方を抑える選択肢として現実的になった点が重要だ。