Whisper Medium 在英语 YouTube 音频上的测试 —— 2026-03-31 基准（WER、CER、RTF）

2026-03-31Test

Eric King

Author

本次评测使用固定配置：whisper-model: medium、language: English，数据来自 YouTube 场景长音频。result.json 显示 strict 指标为 WER 67.75%、Accuracy 32.25%，并且错误高度集中在删除（D=5722，S=68，I=0）。这更像“覆盖与对齐偏差”而不是纯粹的少量听错，因此结论应作为可复现基线，而非营销口径的“准确率”。

参考文本来自视频字幕轨（ref.vtt），模型输出为 model.vtt，两者比较衡量的是“模型结果与平台字幕的一致性”。这对生产流程（字幕质检、检索、内容复用）很有价值，但不等同于人工金标准评测。

1. 为什么这个基准有代表性

YouTube 长音频比短演示更接近真实业务：语速波动、口语化表达、段落切换、编辑痕迹都会影响 ASR。若你的目标是字幕一致性检查、检索索引或草稿生成，这类数据比实验室干净语音更有参考意义。

2. 测试设置

视频来源：https://www.youtube.com/watch?v=7J96ESznKMQ
语言：English
模型：Whisper medium
YAML 时长：17:20
评测时长：1040 秒（约 17.33 分钟）
STT 处理耗时：133 秒
RTF：0.12788461538461537
处理时间窗口：2026-03-31 19:20:56 → 2026-03-31 19:23:09

3. 评测方法（`scripts/evaluate-vtt-metrics.js`）

脚本会抽取 VTT 文本并进行归一化，再用 Levenshtein 对齐得到 S/D/I/N。

[ \mathrm{WER} = \frac{S + D + I}{N},\quad \mathrm{Accuracy}=1-\mathrm{WER} ]

[ \mathrm{CER} = \frac{\text{Character Edit Distance}}{\text{Reference Character Count}} ]

[ \mathrm{RTF}=\frac{\text{Processing Time}}{\text{Audio Duration}} ]

当前脚本同时输出：

strictMetrics：严格规范化
relaxedMetrics：更宽松规范化（如引号、数字格式）

4. 模型概览

Whisper medium 是常见的通用折中配置，通常在速度与可用精度之间取得平衡，适合草稿转写、检索、NLP 前处理，但在逐字发布场景仍需复核。

5. 结果（来自 `result.json`）

Strict / metrics

N=8546, S=68, D=5722, I=0
WER=0.6775099461736485
Accuracy=0.32249005382635154
CER=0.6670790930743296
Character edit distance=21566
Reference characters=32329
Audio duration=1040
STT processing=133
RTF=0.12788461538461537

Relaxed

WER=0.6775099461736485
Accuracy=0.32249005382635154
CER=0.6667603347071313

易读版

Strict：WER≈67.75%，Accuracy≈32.25%，CER≈66.71%
Relaxed：WER≈67.75%，Accuracy≈32.25%，CER≈66.68%
RTF≈0.128（约 7.8x 实时速度）

6. 错误模式分析

I=0 且 D 远大于 S，表明问题核心是“参考文本中大量词未在假设中对齐”，常见于分段边界、覆盖范围、字幕来源差异，而不只是随机听错。strict 与 relaxed 差距很小，也说明格式噪声不是主要矛盾。

7. 关键结论

速度可用：RTF 明显低于 1。
精度不足以直接用于高风险逐字发布。
优先排查覆盖/对齐，再谈模型参数微调。
strict/relaxed 接近，说明结果稳定。
单样本仍不足以代表全部英语 YouTube 场景。

8. 本场景下“最佳模型”结论

在“仅此配置、仅此视频、仅此参考来源”条件下，Whisper medium 可作为可复现实验基线；它定义了后续 A/B 对比的起点，但不代表全局最优。

9. 中立结论

如果目标是草稿、检索、主题提取，这套配置有实用价值；如果目标是逐字引用、合规存档、无障碍高质量字幕，当前结果仍需要人工校对或更强方案。

来源资料

Original audio (video): https://www.youtube.com/watch?v=7J96ESznKMQ
Reference transcript (VTT): test-transcripts/{case-name}/ref.vtt
Model transcript (VTT): test-transcripts/{case-name}/model.vtt
Run metadata: test-transcripts/{case-name}/other.yaml
Precomputed evaluation metrics: test-transcripts/{case-name}/result.json

{case-name} = 20260331。评测脚本：scripts/evaluate-vtt-metrics.js。

Whisper Medium 在英语 YouTube 音频上的测试 —— 2026-03-31 基准（WER、CER、RTF）

1. 为什么这个基准有代表性

2. 测试设置

3. 评测方法（`scripts/evaluate-vtt-metrics.js`）

4. 模型概览

5. 结果（来自 `result.json`）

6. 错误模式分析

7. 关键结论

8. 本场景下“最佳模型”结论

9. 中立结论

来源资料

相关文章

Whisper Medium 在英语 YouTube 音频上的测试 —— 2026-03-30 基准（WER、CER、RTF）

我测试了 AI 英文访谈转写——2026 年 2 月 26 日结果（Whisper BASE，约 11 分钟音频）

立即免費試用

Whisper Medium 在英语 YouTube 音频上的测试 —— 2026-03-31 基准（WER、CER、RTF）

1. 为什么这个基准有代表性

2. 测试设置

3. 评测方法（scripts/evaluate-vtt-metrics.js）

4. 模型概览

5. 结果（来自 result.json）

6. 错误模式分析

7. 关键结论

8. 本场景下“最佳模型”结论

9. 中立结论

来源资料

相关文章

Whisper Medium 在英语 YouTube 音频上的测试 —— 2026-03-30 基准（WER、CER、RTF）

我测试了 AI 英文访谈转写——2026 年 2 月 26 日结果（Whisper BASE，约 11 分钟音频）

立即免費試用

3. 评测方法（`scripts/evaluate-vtt-metrics.js`）

5. 结果（来自 `result.json`）