音声書き起こしを社内PCで完結｜CohereがOSS公開

AI TREND

Cohere：音声認識モデル公開

Cohereが商用利用可能な公開ライセンス（Apache 2.0）の音声認識モデル「Cohere-transcribe」を公開し、誤認識率（WER）17.9%でIBM Granite SpeechやNVIDIA Parakeetを上回ったと公式Xで発表した。

3 の要点を3分で

Cohereが音声認識モデル「Cohere-transcribe」を商用利用可能な公開ライセンス（Apache 2.0）で公開した。公式Xによると、書き起こしの誤りの割合を示す誤認識率（WER）は17.9%で、IBMのGranite Speechより約2ポイント、NVIDIAのParakeetより約3.6ポイント低い水準に達した。

注目すべきは精度に加えた扱いやすさだ。このモデルは外部サーバーに頼らずノートPC上でも動作するため、音声データを社外に出さず社内環境で書き起こしを完結できる。クラウド型の音声認識APIが利用ごとに課金されるのに対し、自社サーバーで動かす内製化が現実的な選択肢になった。

議事録作成や顧客対応の自動化で音声認識の需要が高まる中、コストと情報管理を重視する企業や、自社製品への組み込みを検討する開発者にとって、性能と扱いやすさを両立した判断材料が増えた点が大きい。

音声書き起こしを社内PCで完結｜CohereがOSS公開の本文内説明図 — 図解: 音声認識モデル公開 - Cohereが商用利用可能な公開ライセンス（Apache2.0

押さえるポイント

この変化で何が要点か。図解と出典つきで一目で。

誤認識率17.9%でIBMより約2ポイント、NVIDIAより約3.6ポイント低い精度
Apache 2.0ライセンスで商用利用可、ノートPC上でも動作する
外部サーバーに頼らず社内で書き起こしを完結できる構成

5W1Hでサクッと理解

構造化された事実を最初に。誰が何をいつどこでなぜどのように。

誰が: Cohere
何を: 音声認識モデル公開
いつ: 2026年3月
どこで: Hugging Face
なぜ: 音声市場へ参入
どのように: Apache 2.0配布

背景

音声認識（音声を文字に書き起こす技術）は、議事録作成や顧客対応の自動化などで企業の需要が高まっている分野である。各社が精度を競っており、IBMの「Granite Speech」やNVIDIAの「Parakeet」といった既存モデルが指標になっている。誤認識率（WER, Word Error Rate）は書き起こし誤りの割合を示し、低いほど精度が高い。今回のモデルはHugging Face上の評価ランキング（FFASR Leaderboard）でこれらと比較された。

なぜ今注目なのか

誤認識率17.9%はIBMのモデルより約2ポイント、NVIDIAのモデルより約3.6ポイント低く、上位の精度を示した点が注目される。さらに商用利用可能な公開ライセンスで配布され、外部サーバーに頼らずノートパソコン上で動かせるため、コストや情報管理を重視する企業にとって導入の選択肢が広がる。性能と扱いやすさを両立させた構成が、自社開発を検討する開発者の判断材料になる。

誤認識率17.9%が示したもの

Cohereが公式Xで「Cohere-transcribe」の評価結果を公開した。書き起こしの誤りの割合を示す誤認識率（WER、低いほど高精度）が17.9%で、IBMのGranite Speechより約2ポイント、NVIDIAのParakeetより約3.6ポイント低い水準に達したという。

Transcribe achieved a 17.9 WER - nearly 2 points ahead of IBM Granite Speech and 3.6 points ahead of NVIDIA's Parakeet. Still Apache 2.0 and runs on your laptop. Enterprise performance 🤝 developer ergonomics.
出典: Cohere 公式X

引用にある「Apache 2.0」は商用利用も改変も認める公開ライセンスで、「runs on your laptop」は外部サーバーに頼らず手元のノートPC上でも動くことを指す。Cohereはこれを「企業向けの性能と開発者の使いやすさの両立」と表現している。

なぜ社内PCで動くことが効くのか

音声認識は議事録作成や顧客対応の自動化で企業の需要が高まる分野で、各社が精度を競ってきた。IBMの「Granite Speech」やNVIDIAの「Parakeet」が比較の指標になる中、Cohere-transcribeはこれらを誤認識率で上回った。

ポイントは精度だけではない。クラウド型の音声認識APIは利用ごとに課金され、音声データを外部サーバーに送る必要がある。一方このモデルはApache 2.0で配布され、ノートPC上でも動くため、データを社外に出さず自社環境で書き起こしを完結できる。機密性の高い会議や顧客音声を扱う企業にとって、内製化が現実的な選択肢になった点が大きい。