
Whisper Medium 在英语 YouTube 音频上的测试 —— 2026-03-30 基准(WER、CER、RTF)
2026-03-30Test
Eric King
Author
本次评测使用固定配置:
whisper-model: medium、language: English,数据来自 YouTube 场景长音频。result.json 显示 strict 指标为 WER 68.23%、Accuracy 31.77%,并且错误高度集中在删除(D=8718,S=131,I=0)。这更像“覆盖与对齐偏差”而不是纯粹的少量听错,因此结论应作为可复现基线,而非营销口径的“准确率”。参考文本来自视频字幕轨(
ref.vtt),模型输出为 model.vtt,两者比较衡量的是“模型结果与平台字幕的一致性”。这对生产流程(字幕质检、检索、内容复用)很有价值,但不等同于人工金标准评测。1. 为什么这个基准有代表性
YouTube 长音频比短演示更接近真实业务:语速波动、口语化表达、段落切换、编辑痕迹都会影响 ASR。若你的目标是字幕一致性检查、检索索引或草稿生成,这类数据比实验室干净语音更有参考意义。
2. 测试设置
- 视频来源:https://www.youtube.com/watch?v=EatCzpKNTMs
- 语言:English
- 模型:Whisper medium
- YAML 时长:22:44
- 评测时长:1364 秒(约 22.73 分钟)
- STT 处理耗时:365 秒
- RTF:0.26759530791788855
- 处理时间窗口:2026-03-30 19:49:57 → 2026-03-30 19:56:02
3. 评测方法(scripts/evaluate-vtt-metrics.js)
脚本会抽取 VTT 文本并进行归一化,再用 Levenshtein 对齐得到
S/D/I/N。[
\mathrm{WER} = rac{S + D + I}{N},\quad \mathrm{Accuracy}=1-\mathrm{WER}
]
[
\mathrm{CER} = rac{ ext{Character Edit Distance}}{ ext{Reference Character Count}}
]
[
\mathrm{RTF}=rac{ ext{Processing Time}}{ ext{Audio Duration}}
]
当前脚本同时输出:
strictMetrics:严格规范化relaxedMetrics:更宽松规范化(如引号、数字格式)
4. 模型概览
Whisper medium 是常见的通用折中配置,通常在速度与可用精度之间取得平衡,适合草稿转写、检索、NLP 前处理,但在逐字发布场景仍需复核。
5. 结果(来自 result.json)
Strict / metrics
- N=12970, S=131, D=8718, I=0
- WER=0.6822667694680031
- Accuracy=0.31773323053199687
- CER=0.6702676587109866
- Character edit distance=34683
- Reference characters=51745
- Audio duration=1364
- STT processing=365
- RTF=0.26759530791788855
Relaxed
- WER=0.682112567463377
- Accuracy=0.317887432536623
- CER=0.6700148518721175
易读版
- Strict:WER≈68.23%,Accuracy≈31.77%,CER≈67.03%
- Relaxed:WER≈68.21%,Accuracy≈31.79%,CER≈67.00%
- RTF≈0.268(约 3.7x 实时速度)
6. 错误模式分析
I=0 且 D 远大于 S,表明问题核心是“参考文本中大量词未在假设中对齐”,常见于分段边界、覆盖范围、字幕来源差异,而不只是随机听错。strict 与 relaxed 差距很小,也说明格式噪声不是主要矛盾。7. 关键结论
- 速度可用:RTF 明显低于 1。
- 精度不足以直接用于高风险逐字发布。
- 优先排查覆盖/对齐,再谈模型参数微调。
- strict/relaxed 接近,说明结果稳定。
- 单样本仍不足以代表全部英语 YouTube 场景。
8. 本场景下“最佳模型”结论
在“仅此配置、仅此视频、仅此参考来源”条件下,Whisper medium 可作为可复现实验基线;它定义了后续 A/B 对比的起点,但不代表全局最优。
9. 中立结论
如果目标是草稿、检索、主题提取,这套配置有实用价值;如果目标是逐字引用、合规存档、无障碍高质量字幕,当前结果仍需要人工校对或更强方案。
Source Materials
- Original audio (video): https://www.youtube.com/watch?v=EatCzpKNTMs
- Reference transcript (VTT):
test-transcripts/{case-name}/ref.vtt - Model transcript (VTT):
test-transcripts/{case-name}/model.vtt - Run metadata:
test-transcripts/{case-name}/other.yaml - Precomputed evaluation metrics:
test-transcripts/{case-name}/result.json
{case-name} = 20260330。评测脚本:scripts/evaluate-vtt-metrics.js。