
Whisper Large v3 Turbo 在英语 YouTube 音频上的表现 — 2026年3月29日基准测试(WER、CER、RTF)
2026-03-29Test
Eric King
Author
本文记录一次在 YouTube 上传素材上、约 18 分钟 英语音频的 固定配置 运行。评分器报告 WER ≈ 67.6%,且 删除占主导(6 449 次删除对 60 次替换,0 次插入)。该形态表明假设转写相对参考在 覆盖度 上对齐较差——常见于参考为 平台字幕轨 而 ASR 输出对应不同分段或时长——因此数值应作 诊断性 阅读,而非孤立的、已打磨的「准确率分数」。
视频与参考文本。 参考 WebVTT(
ref.vtt) 为 源视频所附带的字幕文本(导出为 WebVTT)。假设(model.vtt) 为在同一底层音频上运行的 Whisper large-v3-turbo。指标比较的是 这些字幕 与 本次 ASR 运行 —— 用于衡量「我们的流水线与 YouTube 实际推送的字幕有多接近」的实用基线,而非关于经人工核验的真值转写的主张。1. 该基准为何重要
YouTube 式语音在真实工作流中极为常见:麦克风质量起伏、铺底音乐、剪辑、长独白或对白。以 真实平台字幕 为参考评估 ASR,可回答一个具体问题:若我们在同一音频上跑自有 Whisper 技术栈,文本会与观众已看到的字幕相差多少? 这对字幕质检、内容再利用与搜索索引很有用——「是否足够好」取决于产品,但 数字必须可复现。
2. 测试设置
下列数值来自本用例的
other.yaml 与 result.json(目录模式,以便将 YAML 元数据附加到评分器输出)。| Field | Value |
|---|---|
| Source | YouTube video (audio aligned to that upload) |
| Date (processing window) | 2026-03-29 (processtime-at → completed-at in other.yaml) |
| Language | English |
| Whisper model | large-v3-turbo |
| Audio duration (YAML label) | 17:39 |
| Audio duration (scorer, from VTT) | 1059.88 s (≈ 17.7 minutes) |
| STT processing time | 175 s (sttProcessingTimeSeconds in result.json, from YAML timestamps) |
| RTF | 0.165 (from result.json) |
YAML 中的墙钟区间:2026-03-29 16:04:37 → 2026-03-29 16:07:32(与 175 秒处理时间一致)。
3. 评估方法
参考与假设均为 WebVTT 文件。从 cue 提取文本,在打分前进行 规范化(大小写、标点、轻度清理)。
词级对齐
用词元序列做 Levenshtein 式动态规划对齐;回溯得到相对参考长度 N 的 替换(S)、删除(D)、插入(I)。
[
\mathrm{WER} = \frac{S + D + I}{N}, \qquad \mathrm{Accuracy} = 1 - \mathrm{WER}.
]
Character Error Rate(CER)
去除空白;字符编辑距离为字符级 Levenshtein 距离。
[
\mathrm{CER} = \frac{\text{Character edit distance}}{\text{Reference character count (no spaces)}}.
]
Real-Time Factor(RTF)
[
\mathrm{RTF} = \frac{\text{STT processing time}}{\text{Audio duration}}.
]
RTF 小于 1 表示在本运行中解码快于实时。
4. 模型概览
Whisper large-v3-turbo 相对更重的「large」变体,追求 更强质量与更高吞吐(具体行为取决于实现与硬件)。它是 通用 多语言 ASR,适用于不假设逐字完美的 草稿转写、检索 与 字幕草稿。本基准仅使用记录在
other.yaml 中的 一种 解码配置;未扫描解码选项、VAD 或后处理。5. 结果(来自 result.json)
精确指标:
- 参考词数(N): 9627
- 替换(S): 60
- 删除(D): 6449
- 插入(I): 0
- WER: 0.6761192479484782
- Accuracy: 0.3238807520515218
- 参考字符数: 38334
- 字符编辑距离: 25696
- CER: 0.6703187770647467
- 音频时长(秒): 1059.8809999999999
- STT 处理时间(秒): 175
- RTF: 0.16511287587946197
- 评估脚本运行时间(秒): 25.612
为便于阅读而取整
- WER ≈ 67.6%;accuracy ≈ 32.4%
- CER ≈ 67.0%
- 约 38.3k 参考字符上约 25.7k 次字符编辑
- RTF ≈ 0.165×(约为实时的 6 倍速)
6. 错误形态分析
插入为 0,删除远超替换(6449 对 60)。这不是常见的「嘈杂 ASR 多出填充词」形态;它指向在此对齐下,假设 未能匹配 参考中的 大段文字——与 时长不一致、不同分段,或 参考涵盖比 ASR 所听更多内容(例如字幕文件 vs 音频片段)一致。CER ≈ 67% 进一步说明差距是 宽泛的,而非少量换词。
对产研团队:在确认 同一音频窗口、同一语言 以及字幕导出与模型输出之间 可比文本规范化 之前,不要按口语把结果理解成「Whisper 听错了 68% 的词」。
7. 要点
- 速度: RTF ≈ 0.17 有利于长片段批处理。
- 精度: 若需忠实引用,约 68% WER 未经审阅不宜直接发布。
- 错误形状: 删多、零插 —— 在调模型前应先核查 配对与覆盖。
- 场景真实度: 约 18 分钟 来自 真实 YouTube 的连续英语,比玩具片段更有代表性,但仍只是 一个 视频与 一种 模型设置。
- 参考选择: 使用 平台字幕 将测试锚定在 观众可见 的基线上,可能与人工重转写不同。
8. 该场景下的「最佳模型」
在「本片段上的 large-v3-turbo,参考为 YouTube 字幕」这一狭义范围内,本次运行是 已记录的基线:固定 吞吐(RTF)与 定量偏差(WER/CER)以供后续对比。并非声称该模型适用于所有英语 YouTube 内容。
9. 中性结论
对 内部草稿、主题标注或粗检索,若相关方接受错误率并校验关键段落,低 RTF 可使该栈 可用。
对 逐字引用、合规或无障碍关键字幕,约 32% 词级 accuracy 与 删除主导 的错误意味着 人工复核 或 对齐修正 仍属必需。输入变更后请重新跑评分器;方法学保持可比。
源材料
用例文件夹名
{case-name} = 20260329(发布资源时在仓库 test-transcripts/ 下镜像)。- 原始视频(音频来源): https://www.youtube.com/watch?v=E73XCmLAFe8 — 参考字幕为本 视频所附字幕(导出为
ref.vtt)。 - 参考转写(VTT):
test-transcripts/{case-name}/ref.vtt - 模型转写(VTT):
test-transcripts/{case-name}/model.vtt - 运行元数据:
test-transcripts/{case-name}/other.yaml - 预计算评估指标:
test-transcripts/{case-name}/result.json
评分使用本仓库中的
scripts/evaluate-vtt-metrics.js。对长转写,如有需要请以 提高堆上限 的方式运行 Node(例如 NODE_OPTIONS=--max-old-space-size=8192)。