Cohereが音声認識モデル「Cohere-transcribe」を商用利用可能な公開ライセンス(Apache 2.0)で公開した。公式Xによると、書き起こしの誤りの割合を示す誤認識率(WER)は17.9%で、IBMのGranite Speechより約2ポイント、NVIDIAのParakeetより約3.6ポイント低い水準に達した。

注目すべきは精度に加えた扱いやすさだ。このモデルは外部サーバーに頼らずノートPC上でも動作するため、音声データを社外に出さず社内環境で書き起こしを完結できる。クラウド型の音声認識APIが利用ごとに課金されるのに対し、自社サーバーで動かす内製化が現実的な選択肢になった。

議事録作成や顧客対応の自動化で音声認識の需要が高まる中、コストと情報管理を重視する企業や、自社製品への組み込みを検討する開発者にとって、性能と扱いやすさを両立した判断材料が増えた点が大きい。