
Whisper Medium 在英语 YouTube 音频上的测试 —— 2026-03-31 基准(WER、CER、RTF)
2026-03-31Test
Eric King
Author
本次评测使用固定配置:
whisper-model: medium、language: English,数据来自 YouTube 场景长音频。result.json 显示 strict 指标为 WER 67.75%、Accuracy 32.25%,并且错误高度集中在删除(D=5722,S=68,I=0)。这更像“覆盖与对齐偏差”而不是纯粹的少量听错,因此结论应作为可复现基线,而非营销口径的“准确率”。参考文本来自视频字幕轨(
ref.vtt),模型输出为 model.vtt,两者比较衡量的是“模型结果与平台字幕的一致性”。这对生产流程(字幕质检、检索、内容复用)很有价值,但不等同于人工金标准评测。1. 为什么这个基准有代表性
YouTube 长音频比短演示更接近真实业务:语速波动、口语化表达、段落切换、编辑痕迹都会影响 ASR。若你的目标是字幕一致性检查、检索索引或草稿生成,这类数据比实验室干净语音更有参考意义。
2. 测试设置
- 视频来源:https://www.youtube.com/watch?v=7J96ESznKMQ
- 语言:English
- 模型:Whisper medium
- YAML 时长:17:20
- 评测时长:1040 秒(约 17.33 分钟)
- STT 处理耗时:133 秒
- RTF:0.12788461538461537
- 处理时间窗口:2026-03-31 19:20:56 → 2026-03-31 19:23:09
3. 评测方法(scripts/evaluate-vtt-metrics.js)
脚本会抽取 VTT 文本并进行归一化,再用 Levenshtein 对齐得到
S/D/I/N。[
\mathrm{WER} = \frac{S + D + I}{N},\quad \mathrm{Accuracy}=1-\mathrm{WER}
]
[
\mathrm{CER} = \frac{\text{Character Edit Distance}}{\text{Reference Character Count}}
]
[
\mathrm{RTF}=\frac{\text{Processing Time}}{\text{Audio Duration}}
]
当前脚本同时输出:
strictMetrics:严格规范化relaxedMetrics:更宽松规范化(如引号、数字格式)
4. 模型概览
Whisper medium 是常见的通用折中配置,通常在速度与可用精度之间取得平衡,适合草稿转写、检索、NLP 前处理,但在逐字发布场景仍需复核。
5. 结果(来自 result.json)
Strict / metrics
- N=8546, S=68, D=5722, I=0
- WER=0.6775099461736485
- Accuracy=0.32249005382635154
- CER=0.6670790930743296
- Character edit distance=21566
- Reference characters=32329
- Audio duration=1040
- STT processing=133
- RTF=0.12788461538461537
Relaxed
- WER=0.6775099461736485
- Accuracy=0.32249005382635154
- CER=0.6667603347071313
易读版
- Strict:WER≈67.75%,Accuracy≈32.25%,CER≈66.71%
- Relaxed:WER≈67.75%,Accuracy≈32.25%,CER≈66.68%
- RTF≈0.128(约 7.8x 实时速度)
6. 错误模式分析
I=0 且 D 远大于 S,表明问题核心是“参考文本中大量词未在假设中对齐”,常见于分段边界、覆盖范围、字幕来源差异,而不只是随机听错。strict 与 relaxed 差距很小,也说明格式噪声不是主要矛盾。7. 关键结论
- 速度可用:RTF 明显低于 1。
- 精度不足以直接用于高风险逐字发布。
- 优先排查覆盖/对齐,再谈模型参数微调。
- strict/relaxed 接近,说明结果稳定。
- 单样本仍不足以代表全部英语 YouTube 场景。
8. 本场景下“最佳模型”结论
在“仅此配置、仅此视频、仅此参考来源”条件下,Whisper medium 可作为可复现实验基线;它定义了后续 A/B 对比的起点,但不代表全局最优。
9. 中立结论
如果目标是草稿、检索、主题提取,这套配置有实用价值;如果目标是逐字引用、合规存档、无障碍高质量字幕,当前结果仍需要人工校对或更强方案。
来源资料
- Original audio (video): https://www.youtube.com/watch?v=7J96ESznKMQ
- Reference transcript (VTT):
test-transcripts/{case-name}/ref.vtt - Model transcript (VTT):
test-transcripts/{case-name}/model.vtt - Run metadata:
test-transcripts/{case-name}/other.yaml - Precomputed evaluation metrics:
test-transcripts/{case-name}/result.json
{case-name} = 20260331。评测脚本:scripts/evaluate-vtt-metrics.js。