Whisper Medium 在英语 YouTube 音频上的测试 —— 2026-03-30 基准（WER、CER、RTF）

2026-03-30Test

Eric King

Author

本次评测使用固定配置：whisper-model: medium、language: English，数据来自 YouTube 场景长音频。result.json 显示 strict 指标为 WER 68.23%、Accuracy 31.77%，并且错误高度集中在删除（D=8718，S=131，I=0）。这更像“覆盖与对齐偏差”而不是纯粹的少量听错，因此结论应作为可复现基线，而非营销口径的“准确率”。

参考文本来自视频字幕轨（ref.vtt），模型输出为 model.vtt，两者比较衡量的是“模型结果与平台字幕的一致性”。这对生产流程（字幕质检、检索、内容复用）很有价值，但不等同于人工金标准评测。

1. 为什么这个基准有代表性

YouTube 长音频比短演示更接近真实业务：语速波动、口语化表达、段落切换、编辑痕迹都会影响 ASR。若你的目标是字幕一致性检查、检索索引或草稿生成，这类数据比实验室干净语音更有参考意义。

2. 测试设置

视频来源：https://www.youtube.com/watch?v=EatCzpKNTMs
语言：English
模型：Whisper medium
YAML 时长：22:44
评测时长：1364 秒（约 22.73 分钟）
STT 处理耗时：365 秒
RTF：0.26759530791788855
处理时间窗口：2026-03-30 19:49:57 → 2026-03-30 19:56:02

3. 评测方法（`scripts/evaluate-vtt-metrics.js`）

脚本会抽取 VTT 文本并进行归一化，再用 Levenshtein 对齐得到 S/D/I/N。

[ \mathrm{WER} = rac{S + D + I}{N},\quad \mathrm{Accuracy}=1-\mathrm{WER} ]

[ \mathrm{CER} = rac{ ext{Character Edit Distance}}{ ext{Reference Character Count}} ]

[ \mathrm{RTF}=rac{ ext{Processing Time}}{ ext{Audio Duration}} ]

当前脚本同时输出：

strictMetrics：严格规范化
relaxedMetrics：更宽松规范化（如引号、数字格式）

4. 模型概览

Whisper medium 是常见的通用折中配置，通常在速度与可用精度之间取得平衡，适合草稿转写、检索、NLP 前处理，但在逐字发布场景仍需复核。

5. 结果（来自 `result.json`）

Strict / metrics

N=12970, S=131, D=8718, I=0
WER=0.6822667694680031
Accuracy=0.31773323053199687
CER=0.6702676587109866
Character edit distance=34683
Reference characters=51745
Audio duration=1364
STT processing=365
RTF=0.26759530791788855

Relaxed

WER=0.682112567463377
Accuracy=0.317887432536623
CER=0.6700148518721175

易读版

Strict：WER≈68.23%，Accuracy≈31.77%，CER≈67.03%
Relaxed：WER≈68.21%，Accuracy≈31.79%，CER≈67.00%
RTF≈0.268（约 3.7x 实时速度）

6. 错误模式分析

I=0 且 D 远大于 S，表明问题核心是“参考文本中大量词未在假设中对齐”，常见于分段边界、覆盖范围、字幕来源差异，而不只是随机听错。strict 与 relaxed 差距很小，也说明格式噪声不是主要矛盾。

7. 关键结论

速度可用：RTF 明显低于 1。
精度不足以直接用于高风险逐字发布。
优先排查覆盖/对齐，再谈模型参数微调。
strict/relaxed 接近，说明结果稳定。
单样本仍不足以代表全部英语 YouTube 场景。

8. 本场景下“最佳模型”结论

在“仅此配置、仅此视频、仅此参考来源”条件下，Whisper medium 可作为可复现实验基线；它定义了后续 A/B 对比的起点，但不代表全局最优。

9. 中立结论

如果目标是草稿、检索、主题提取，这套配置有实用价值；如果目标是逐字引用、合规存档、无障碍高质量字幕，当前结果仍需要人工校对或更强方案。

Source Materials

Original audio (video): https://www.youtube.com/watch?v=EatCzpKNTMs
Reference transcript (VTT): test-transcripts/{case-name}/ref.vtt
Model transcript (VTT): test-transcripts/{case-name}/model.vtt
Run metadata: test-transcripts/{case-name}/other.yaml
Precomputed evaluation metrics: test-transcripts/{case-name}/result.json

{case-name} = 20260330。评测脚本：scripts/evaluate-vtt-metrics.js。

Whisper Medium 在英语 YouTube 音频上的测试 —— 2026-03-30 基准（WER、CER、RTF）

1. 为什么这个基准有代表性

2. 测试设置

3. 评测方法（`scripts/evaluate-vtt-metrics.js`）

4. 模型概览

5. 结果（来自 `result.json`）

6. 错误模式分析

7. 关键结论

8. 本场景下“最佳模型”结论

9. 中立结论

Source Materials

相关文章

Whisper Medium 在英语 YouTube 音频上的测试 —— 2026-03-31 基准（WER、CER、RTF）

我测试了 AI 英文访谈转写——2026 年 2 月 26 日结果（Whisper BASE，约 11 分钟音频）

立即免費試用

Whisper Medium 在英语 YouTube 音频上的测试 —— 2026-03-30 基准（WER、CER、RTF）

1. 为什么这个基准有代表性

2. 测试设置

3. 评测方法（scripts/evaluate-vtt-metrics.js）

4. 模型概览

5. 结果（来自 result.json）

6. 错误模式分析

7. 关键结论

8. 本场景下“最佳模型”结论

9. 中立结论

Source Materials

相关文章

Whisper Medium 在英语 YouTube 音频上的测试 —— 2026-03-31 基准（WER、CER、RTF）

我测试了 AI 英文访谈转写——2026 年 2 月 26 日结果（Whisper BASE，约 11 分钟音频）

立即免費試用

3. 评测方法（`scripts/evaluate-vtt-metrics.js`）

5. 结果（来自 `result.json`）