音声認識の品質を理解する:WERとCERの解説

音声認識の品質を理解する:WERとCERの解説

Eric King

Eric King

Author


音声テキスト化(STT)、別名自動音声認識(ASR)は、音声アシスタント、コールセンター分析、スマートデバイス、自動字幕など、現代のAIアプリケーションにおける中核機能になりつつあります。
業界での普及が進むにつれ、よく問われるのが次の点です。
音声テキスト化の出力品質をどう測るのか?
この分野で主流なのは次の2つの指標です。
  • WER(Word Error Rate:単語誤り率)
  • CER(Character Error Rate:文字誤り率)
シンプルな指標ですが、モデル評価、エンジン比較、本番パフォーマンスの監視に直結します。本稿では、それぞれの意味、使い分け、実務での解釈の仕方を整理します。

WER(単語誤り率)とは?

WERは、英語・スペイン語・ドイツ語・フランス語など、単語境界が明確な言語の音声認識評価で最も広く使われます。
参照書き起こしと比べて、転記テキストにどれだけ誤りがあるかを測ります。

WER = (S + D + I) / N
記号の意味:
  • S — 置換(正しい単語が別の誤った単語に置き換わっている)
  • D — 削除(参照にある単語が仮説から欠けている)
  • I — 挿入(参照にない余分な単語が仮説に含まれる)
  • N — 参照テキストの単語総数

解釈の目安(WER)

  • 0% → 完全な書き起こし
  • 10~20% → 多くの業務用途では許容範囲
  • 20~40% → 雑音環境や訛りの強い話し方では典型的
  • 40%超 → 認識品質は低い

参照: "The quick brown fox jumps over the lazy dog"
仮説: "The quick brown fox jump over lazy dog"
誤り:
  • 置換("jumps" → "jump")
  • 削除("the")
  • 挿入 0
計算:
WER = (1 + 1 + 0) / 9 = 22.2%

CER(文字誤り率)とは?

CERは単語ではなく文字単位で書き起こしの正確さを評価します。
特に重要なのは次のような場合です。
  • 中国語・日本語・韓国語(単語間の空白が本質的でない言語)
  • OCR(画像内の文字認識)
  • きわめて細かい粒度の評価が必要なモデル

CER = (S + D + I) / N_characters
(S, D, I)は文字レベルの置換・削除・挿入、N_charactersは参照テキストの文字総数です。
文字ごとに数えるため、WERでは見えにくい誤り、とくに1文字の欠落で意味が変わる言語での差を浮き彫りにできます。

WERとCER:どちらを使うか

状況推奨指標理由
英語・スペイン語・フランス語などWER単語が自然な意味単位
中国語/日本語/韓国語CERスペースがない/意味の核は文字に載る
OCRの文字認識CER文字レベルの詳細な正確さが必要
多言語混在両方意味面と細部の両方を補完的に見られる
雑音・複数話者データWER利用性に効く意味的な誤りを反映しやすい

音声テキスト化で評価が重要な理由

Whisper、Deepgram、Google ASR、独自ファインチューンモデルなど、現代のSTTは高精度化しています。しかし評価指標を揃えなければ、次のような問いに答えられません。
  • 自社ドメインデータではどのモデルが最善か?
  • 本番では時間とともに精度が劣化していないか?
  • モデル更新は品質を改善したか、悪化したか?
  • 背景ノイズやアクセントのばらつきの影響はどの程度か?
WERとCERは、改善の測定と本番品質の大規模な追跡を客観的に行うための手段です。

WER/CERの実務的なコツ

1. 必ずテキストを正規化する

指標を計算する前に、些細な差で誤り率が水増しされないよう前処理します。
  • 大文字・小文字の統一
  • 句読点の除去
  • Unicode正規化(特殊文字の統一)
  • 一貫したトークン化(単語/文字境界の整合)

2. セグメント単位で評価する

段落全体ではなく、より小さい単位で精度を見ます。
  • 時間軸に沿った音声セグメント
  • 話者ターン
誤りの発生箇所(ノイズの多いクリップ、早口など)を特定し、モデル改善に活かせます。

3. 絶対値に固執しない

WER/CERのわずかな数値差が、必ずしも実用上の差にならないこともあります。例:
  • モデルA: 7.1% WER
  • モデルB: 6.5% WER
0.6ポイントの差は小さいことが多いです。モデル選定前には必ずサンプルを聞き、意味が保たれているかを確認してください。WER/CERは近似であり、意味保持の完全な尺度ではありません。

音声テキスト化指標の今後

LLM連携のSTTが進む一方で、従来のWER/CERは基盤として残りますが、限界に対処する新しい評価も登場しています。
  • Semantic Error Rate(SER): 表層テキストではなく意味に焦点(例:"the cat chased the mouse" と "the mouse was chased by the cat" を同等とみなすか)
  • Entity Error Rate: 固有名詞・電話番号・SKU・キーワードなど高価値用語の正確さ
  • Task Success Rate: 書き起こしが下流業務(コールセンターのチケット振り分け、字幕のアクセシビリティなど)をどれだけ支えるか
それでも、シンプルで汎用性があるため、WERとCERは音声転記のベンチマークやSTTエンジン比較の業界標準であり続けるでしょう。

まとめ

WERとCERは、音声テキスト化システムを評価するシンプルかつ強力な道具です。自社ASRを構築する場合でも、商用APIを組み込む場合でも、本番の書き起こしを監視する場合でも、精度と経時的な改善を客観的に測る明確な基準になります。
音声データ、自然言語処理、AI主導の自動化に関わる人にとって、WERとCERの理解は不可欠です。信頼できるSTTの検証と最適化の背骨といえます。

今すぐ無料で試す

当社のAI音声・オーディオ/ビデオサービスを今すぐお試しください。高精度な音声文字起こし、多言語翻訳、話者分離に対応するだけでなく、自動動画字幕生成、音声・映像コンテンツのインテリジェント編集、音声と映像を組み合わせた同期解析も実現します。会議記録、ショート動画制作、ポッドキャスト制作など、あらゆるシーンをこれ一つでカバーできます。今すぐ無料トライアルを始めましょう!

音声をオンラインでテキストに音声をテキストに無料音声テキスト変換ツール音声をMP3でテキストに音声をWAVでテキストに音声をテキストに(タイムスタンプ付き)会議向けサウンド→テキストSound to Text Multi Language音声をテキストで字幕にWAVをテキストに変換音声テキスト変換オンライン音声テキスト変換音声テキスト変換MP3をテキストに変換音声録音をテキストに変換オンライン音声入力タイムスタンプ付き音声テキスト変換リアルタイム音声テキスト変換長時間音声テキスト変換動画音声テキスト変換YouTube音声テキスト変換動画編集音声テキスト変換字幕音声テキスト変換ポッドキャスト音声テキスト変換インタビュー音声テキスト変換インタビュー音声をテキストに録音音声テキスト変換会議音声テキスト変換講義音声テキスト変換音声メモテキスト変換多言語音声テキスト変換高精度音声テキスト変換高速音声テキスト変換Premiere Pro音声テキスト変換代替DaVinci音声テキスト変換代替VEED音声テキスト変換代替InVideo音声テキスト変換代替Otter.ai音声テキスト変換代替Descript音声テキスト変換代替Trint音声テキスト変換代替Rev音声テキスト変換代替Sonix音声テキスト変換代替Happy Scribe音声テキスト変換代替Zoom音声テキスト変換代替Google Meet音声テキスト変換代替Microsoft Teams音声テキスト変換代替Fireflies.ai音声テキスト変換代替Fathom音声テキスト変換代替FlexClip音声テキスト変換代替Kapwing音声テキスト変換代替Canva音声テキスト変換代替長時間音声テキスト変換AI音声テキスト変換無料音声テキスト変換広告なし音声テキスト変換ノイズのある音声のテキスト変換時間付き音声テキスト変換音声から字幕を生成ポッドキャスト転写オンライン顧客通話を転写TikTok音声をテキストにTikTok音声をテキストにYouTube音声テキスト変換YouTube音声をテキストに音声メモテキスト変換WhatsApp音声メッセージテキスト変換Telegram音声メッセージテキスト変換Discord通話転写Twitch音声テキスト変換Skype音声テキスト変換Messenger音声テキスト変換LINE音声メッセージテキスト変換Vlog転写テキスト変換説教オーディオテキスト変換音声テキスト変換オーディオテキスト変換音声ノートテキスト変換音声入力会議音声入力YouTube音声入力話して入力ハンズフリー入力音声を文字に音声を単語にオンライン音声テキスト変換Online Transcription Software会議音声テキスト変換高速音声テキスト変換Real Time Speech to TextLive Transcription AppTikTok音声テキスト変換TikTok音声テキスト変換話した言葉を文字に音声をテキストにTalk to Text FreeTalk to Text OnlineTalk to Text for YouTubeTalk to Text for SubtitlesTalk to Text for Content CreatorsTalk to Text for Meetings音声をタイピングに音声をテキストに音声書き込みツール音声書き込みツール音声入力法的転写ツール医療音声入力ツール日本語音声転写韓国語会議転写会議転写ツール会議音声をテキストに講義テキスト変換ツール講義音声をテキストに動画テキスト転写TikTok字幕ジェネレーターコールセンター転写Reels音声テキスト変換ツールMP3をテキストに転写WAVファイルをテキストに転写CapCut音声テキスト変換CapCut音声テキスト変換Voice to Text in English英語音声をテキストにVoice to Text in SpanishVoice to Text in Frenchフランス語音声をテキストにVoice to Text in Germanドイツ語音声をテキストにVoice to Text in Japanese日本語音声をテキストにVoice to Text in Korean韓国語音声をテキストにVoice to Text in PortugueseVoice to Text in ArabicVoice to Text in ChineseVoice to Text in HindiVoice to Text in RussianWeb Voice Typing ToolVoice Typing Website