理解语音转文字质量：WER 与 CER 详解

语音转文字（STT），也称自动语音识别（ASR），已成为现代 AI 应用的核心能力之一——驱动语音助手、呼叫中心分析、智能设备、自动字幕等场景。

随着各行业广泛采用，人们常会问：

如何衡量语音转文字输出的质量？

该领域最主流的两项指标是：

WER（Word Error Rate，词错误率）
CER（Character Error Rate，字错误率）

它们看似简单，却直接影响我们如何评估模型、对比引擎以及监控线上表现。本文将说明其含义、如何选择，以及在实际场景中如何解读。

什么是 WER（词错误率）？

WER 是评估具有清晰词边界的语言（如英语、西班牙语、德语、法语）语音识别时最常用的指标。

它衡量与参考转写相比，识别文本中出现了多少错误。

公式

WER = (S + D + I) / N

其中：

S — 替换（一个词被错成另一个词）
D — 删除（参考中有词在假设结果中缺失）
I — 插入（假设结果中多出了参考里没有的词）
N — 参考文本中的词总数

WER 解读阈值

0% → 转写完全正确
10–20% → 对许多工业任务可接受
20–40% → 常见于嘈杂环境或带口音语音
40%+ → 识别质量较差

示例

参考： "The quick brown fox jumps over the lazy dog"
假设： "The quick brown fox jump over lazy dog"

错误：

替换（"jumps" → "jump"）
删除（"the"）
插入 0 次

计算：

WER = (1 + 1 + 0) / 9 = 22.2%

什么是 CER（字错误率）？

CER 在字符层面而非词层面评估转写准确率。

该指标在以下场景尤为重要：

中文、日文、韩文（缺乏自然的词间空格）
OCR（图像文字识别）
需要极细粒度评估的模型

公式

CER = (S + D + I) / N_characters

其中（S、D、I）指字符级的替换、删除与插入，N_characters 为参考文本的字符总数。

由于逐字统计，CER 能暴露 WER 可能掩盖的错误——尤其在缺一字即可彻底改变语义的语种中。

WER 与 CER：如何选择？

场景	推荐指标	原因
英语、西班牙语、法语等	WER	词是自然语义单位
中文 / 日文 / 韩文	CER	无空格或词界不清；语义核心在字/字符上
OCR 文字识别	CER	需要字符级精细准确率
多语言混合内容	两者结合	语义与细粒度信息互补
嘈杂、多说话人数据集	WER	更能反映影响可用性的语义类错误

为何语音转文字需要稳定评估？

现代 STT 系统——如 Whisper、Deepgram、Google ASR 或自研微调模型——精度越来越高。但若没有一致的评估指标，以下问题将难以回答：

哪套模型在我的领域数据上表现最好？
线上转写准确率是否会随时间下降？
模型更新是改善还是损害了转写质量？
背景噪声与口音变化的影响有多大？

WER 与 CER 为团队提供客观手段，用于衡量改进并在规模上跟踪生产质量。

使用 WER / CER 的实用建议

1. 务必先做文本归一化

在计算指标前进行预处理，避免因琐碎差异抬高错误率：

大小写统一
去除标点
Unicode 归一化（统一特殊字符）
一致的切分方式（对齐词/字边界）

2. 采用分段评估

不要只比对整段段落，应在更小单元上衡量准确率：

句子
时间对齐的音频片段
说话人轮次

这样能精确定位错误（如嘈杂片段、语速过快），便于有针对性地优化模型。

3. 不要过度纠结绝对数值

WER/CER 的微小数值差异未必对应真实可用性差异。例如：

模型 A： 7.1% WER
模型 B： 6.5% WER

0.6 个百分点的差距往往可忽略——选型前务必试听样本并判断语义是否保留。WER/CER 是近似指标，并非意义保持的完整度量。

语音转文字指标的未来

随着基于大语言模型的 STT 能力增强，传统 WER/CER 仍是基础，但也在出现弥补其局限的新评估方式：

Semantic Error Rate（SER）： 关注语义而非表面文字（例如是否将 "the cat chased the mouse" 与 "the mouse was chased by the cat" 视为等价）
Entity Error Rate： 衡量高价值实体（姓名、电话、商品 SKU、关键词）的准确率
Task Success Rate： 评估转写对下游流程（如呼叫中心工单分流、字幕无障碍）的支撑程度

尽管如此，凭借简单与通用性，WER 与 CER 仍将是音频转写基准测试与 STT 引擎对比的行业标准指标。

结语

WER 与 CER 是评估语音转文字系统简单而有力的工具。无论您在自研 ASR、接入商业 API，还是监控线上转写，这些指标都能以清晰、客观的方式衡量准确率并跟踪长期改进。

对于从事音频数据、自然语言处理或 AI 驱动自动化的人而言，理解 WER 与 CER 至关重要——它们是可靠验证与优化 STT 系统的基石。

理解语音转文字质量：WER 与 CER 详解

什么是 WER（词错误率）？

公式

WER 解读阈值

示例

什么是 CER（字错误率）？

公式

WER 与 CER：如何选择？

为何语音转文字需要稳定评估？

使用 WER / CER 的实用建议

1. 务必先做文本归一化

2. 采用分段评估

3. 不要过度纠结绝对数值

语音转文字指标的未来

结语

相关文章

什么是语音输入，它是如何工作的？

低延迟语音识别：使用 SayToWords 实现实时语音转文字

语音转文字入门：从零开始的完整指南

立即免費試用