
理解语音转文字质量:WER 与 CER 详解
Eric King
Author
语音转文字(STT),也称自动语音识别(ASR),已成为现代 AI 应用的核心能力之一——驱动语音助手、呼叫中心分析、智能设备、自动字幕等场景。
随着各行业广泛采用,人们常会问:
如何衡量语音转文字输出的质量?
该领域最主流的两项指标是:
- WER(Word Error Rate,词错误率)
- CER(Character Error Rate,字错误率)
它们看似简单,却直接影响我们如何评估模型、对比引擎以及监控线上表现。本文将说明其含义、如何选择,以及在实际场景中如何解读。
什么是 WER(词错误率)?
WER 是评估具有清晰词边界的语言(如英语、西班牙语、德语、法语)语音识别时最常用的指标。
它衡量与参考转写相比,识别文本中出现了多少错误。
公式
WER = (S + D + I) / N
其中:
- S — 替换(一个词被错成另一个词)
- D — 删除(参考中有词在假设结果中缺失)
- I — 插入(假设结果中多出了参考里没有的词)
- N — 参考文本中的词总数
WER 解读阈值
- 0% → 转写完全正确
- 10–20% → 对许多工业任务可接受
- 20–40% → 常见于嘈杂环境或带口音语音
- 40%+ → 识别质量较差
示例
参考: "The quick brown fox jumps over the lazy dog"
假设: "The quick brown fox jump over lazy dog"
假设: "The quick brown fox jump over lazy dog"
错误:
- 替换("jumps" → "jump")
- 删除("the")
- 插入 0 次
计算:
WER = (1 + 1 + 0) / 9 = 22.2%
什么是 CER(字错误率)?
CER 在字符层面而非词层面评估转写准确率。
该指标在以下场景尤为重要:
- 中文、日文、韩文(缺乏自然的词间空格)
- OCR(图像文字识别)
- 需要极细粒度评估的模型
公式
CER = (S + D + I) / N_characters
其中(S、D、I)指字符级的替换、删除与插入,N_characters 为参考文本的字符总数。
由于逐字统计,CER 能暴露 WER 可能掩盖的错误——尤其在缺一字即可彻底改变语义的语种中。
WER 与 CER:如何选择?
| 场景 | 推荐指标 | 原因 |
|---|---|---|
| 英语、西班牙语、法语等 | WER | 词是自然语义单位 |
| 中文 / 日文 / 韩文 | CER | 无空格或词界不清;语义核心在字/字符上 |
| OCR 文字识别 | CER | 需要字符级精细准确率 |
| 多语言混合内容 | 两者结合 | 语义与细粒度信息互补 |
| 嘈杂、多说话人数据集 | WER | 更能反映影响可用性的语义类错误 |
为何语音转文字需要稳定评估?
现代 STT 系统——如 Whisper、Deepgram、Google ASR 或自研微调模型——精度越来越高。但若没有一致的评估指标,以下问题将难以回答:
- 哪套模型在我的领域数据上表现最好?
- 线上转写准确率是否会随时间下降?
- 模型更新是改善还是损害了转写质量?
- 背景噪声与口音变化的影响有多大?
WER 与 CER 为团队提供客观手段,用于衡量改进并在规模上跟踪生产质量。
使用 WER / CER 的实用建议
1. 务必先做文本归一化
在计算指标前进行预处理,避免因琐碎差异抬高错误率:
- 大小写统一
- 去除标点
- Unicode 归一化(统一特殊字符)
- 一致的切分方式(对齐词/字边界)
2. 采用分段评估
不要只比对整段段落,应在更小单元上衡量准确率:
- 句子
- 时间对齐的音频片段
- 说话人轮次
这样能精确定位错误(如嘈杂片段、语速过快),便于有针对性地优化模型。
3. 不要过度纠结绝对数值
WER/CER 的微小数值差异未必对应真实可用性差异。例如:
- 模型 A: 7.1% WER
- 模型 B: 6.5% WER
0.6 个百分点的差距往往可忽略——选型前务必试听样本并判断语义是否保留。WER/CER 是近似指标,并非意义保持的完整度量。
语音转文字指标的未来
随着基于大语言模型的 STT 能力增强,传统 WER/CER 仍是基础,但也在出现弥补其局限的新评估方式:
- Semantic Error Rate(SER): 关注语义而非表面文字(例如是否将 "the cat chased the mouse" 与 "the mouse was chased by the cat" 视为等价)
- Entity Error Rate: 衡量高价值实体(姓名、电话、商品 SKU、关键词)的准确率
- Task Success Rate: 评估转写对下游流程(如呼叫中心工单分流、字幕无障碍)的支撑程度
尽管如此,凭借简单与通用性,WER 与 CER 仍将是音频转写基准测试与 STT 引擎对比的行业标准指标。
结语
WER 与 CER 是评估语音转文字系统简单而有力的工具。无论您在自研 ASR、接入商业 API,还是监控线上转写,这些指标都能以清晰、客观的方式衡量准确率并跟踪长期改进。
对于从事音频数据、自然语言处理或 AI 驱动自动化的人而言,理解 WER 与 CER 至关重要——它们是可靠验证与优化 STT 系统的基石。


