
音声認識の品質を理解する:WERとCERの解説
Eric King
Author
音声テキスト化(STT)、別名自動音声認識(ASR)は、音声アシスタント、コールセンター分析、スマートデバイス、自動字幕など、現代のAIアプリケーションにおける中核機能になりつつあります。
業界での普及が進むにつれ、よく問われるのが次の点です。
音声テキスト化の出力品質をどう測るのか?
この分野で主流なのは次の2つの指標です。
- WER(Word Error Rate:単語誤り率)
- CER(Character Error Rate:文字誤り率)
シンプルな指標ですが、モデル評価、エンジン比較、本番パフォーマンスの監視に直結します。本稿では、それぞれの意味、使い分け、実務での解釈の仕方を整理します。
WER(単語誤り率)とは?
WERは、英語・スペイン語・ドイツ語・フランス語など、単語境界が明確な言語の音声認識評価で最も広く使われます。
参照書き起こしと比べて、転記テキストにどれだけ誤りがあるかを測ります。
式
WER = (S + D + I) / N
記号の意味:
- S — 置換(正しい単語が別の誤った単語に置き換わっている)
- D — 削除(参照にある単語が仮説から欠けている)
- I — 挿入(参照にない余分な単語が仮説に含まれる)
- N — 参照テキストの単語総数
解釈の目安(WER)
- 0% → 完全な書き起こし
- 10~20% → 多くの業務用途では許容範囲
- 20~40% → 雑音環境や訛りの強い話し方では典型的
- 40%超 → 認識品質は低い
例
参照: "The quick brown fox jumps over the lazy dog"
仮説: "The quick brown fox jump over lazy dog"
仮説: "The quick brown fox jump over lazy dog"
誤り:
- 置換("jumps" → "jump")
- 削除("the")
- 挿入 0
計算:
WER = (1 + 1 + 0) / 9 = 22.2%
CER(文字誤り率)とは?
CERは単語ではなく文字単位で書き起こしの正確さを評価します。
特に重要なのは次のような場合です。
- 中国語・日本語・韓国語(単語間の空白が本質的でない言語)
- OCR(画像内の文字認識)
- きわめて細かい粒度の評価が必要なモデル
式
CER = (S + D + I) / N_characters
(S, D, I)は文字レベルの置換・削除・挿入、N_charactersは参照テキストの文字総数です。
文字ごとに数えるため、WERでは見えにくい誤り、とくに1文字の欠落で意味が変わる言語での差を浮き彫りにできます。
WERとCER:どちらを使うか
| 状況 | 推奨指標 | 理由 |
|---|---|---|
| 英語・スペイン語・フランス語など | WER | 単語が自然な意味単位 |
| 中国語/日本語/韓国語 | CER | スペースがない/意味の核は文字に載る |
| OCRの文字認識 | CER | 文字レベルの詳細な正確さが必要 |
| 多言語混在 | 両方 | 意味面と細部の両方を補完的に見られる |
| 雑音・複数話者データ | WER | 利用性に効く意味的な誤りを反映しやすい |
音声テキスト化で評価が重要な理由
Whisper、Deepgram、Google ASR、独自ファインチューンモデルなど、現代のSTTは高精度化しています。しかし評価指標を揃えなければ、次のような問いに答えられません。
- 自社ドメインデータではどのモデルが最善か?
- 本番では時間とともに精度が劣化していないか?
- モデル更新は品質を改善したか、悪化したか?
- 背景ノイズやアクセントのばらつきの影響はどの程度か?
WERとCERは、改善の測定と本番品質の大規模な追跡を客観的に行うための手段です。
WER/CERの実務的なコツ
1. 必ずテキストを正規化する
指標を計算する前に、些細な差で誤り率が水増しされないよう前処理します。
- 大文字・小文字の統一
- 句読点の除去
- Unicode正規化(特殊文字の統一)
- 一貫したトークン化(単語/文字境界の整合)
2. セグメント単位で評価する
段落全体ではなく、より小さい単位で精度を見ます。
- 文
- 時間軸に沿った音声セグメント
- 話者ターン
誤りの発生箇所(ノイズの多いクリップ、早口など)を特定し、モデル改善に活かせます。
3. 絶対値に固執しない
WER/CERのわずかな数値差が、必ずしも実用上の差にならないこともあります。例:
- モデルA: 7.1% WER
- モデルB: 6.5% WER
0.6ポイントの差は小さいことが多いです。モデル選定前には必ずサンプルを聞き、意味が保たれているかを確認してください。WER/CERは近似であり、意味保持の完全な尺度ではありません。
音声テキスト化指標の今後
LLM連携のSTTが進む一方で、従来のWER/CERは基盤として残りますが、限界に対処する新しい評価も登場しています。
- Semantic Error Rate(SER): 表層テキストではなく意味に焦点(例:"the cat chased the mouse" と "the mouse was chased by the cat" を同等とみなすか)
- Entity Error Rate: 固有名詞・電話番号・SKU・キーワードなど高価値用語の正確さ
- Task Success Rate: 書き起こしが下流業務(コールセンターのチケット振り分け、字幕のアクセシビリティなど)をどれだけ支えるか
それでも、シンプルで汎用性があるため、WERとCERは音声転記のベンチマークやSTTエンジン比較の業界標準であり続けるでしょう。
まとめ
WERとCERは、音声テキスト化システムを評価するシンプルかつ強力な道具です。自社ASRを構築する場合でも、商用APIを組み込む場合でも、本番の書き起こしを監視する場合でも、精度と経時的な改善を客観的に測る明確な基準になります。
音声データ、自然言語処理、AI主導の自動化に関わる人にとって、WERとCERの理解は不可欠です。信頼できるSTTの検証と最適化の背骨といえます。


