Whisper Large v3 Turbo 在英语 YouTube 音频上的表现 — 2026年3月29日基准测试（WER、CER、RTF）

本文记录一次在 YouTube 上传素材上、约 18 分钟 英语音频的 固定配置 运行。评分器报告 WER ≈ 67.6%，且 删除占主导（6 449 次删除对 60 次替换，0 次插入）。该形态表明假设转写相对参考在 覆盖度 上对齐较差——常见于参考为 平台字幕轨 而 ASR 输出对应不同分段或时长——因此数值应作 诊断性 阅读，而非孤立的、已打磨的「准确率分数」。

视频与参考文本。 参考 WebVTT（ref.vtt） 为 源视频所附带的字幕文本（导出为 WebVTT）。假设（model.vtt） 为在同一底层音频上运行的 Whisper large-v3-turbo。指标比较的是 这些字幕 与 本次 ASR 运行 —— 用于衡量「我们的流水线与 YouTube 实际推送的字幕有多接近」的实用基线，而非关于经人工核验的真值转写的主张。

1. 该基准为何重要

YouTube 式语音在真实工作流中极为常见：麦克风质量起伏、铺底音乐、剪辑、长独白或对白。以 真实平台字幕 为参考评估 ASR，可回答一个具体问题：若我们在同一音频上跑自有 Whisper 技术栈，文本会与观众已看到的字幕相差多少？ 这对字幕质检、内容再利用与搜索索引很有用——「是否足够好」取决于产品，但 数字必须可复现。

2. 测试设置

下列数值来自本用例的 other.yaml 与 result.json（目录模式，以便将 YAML 元数据附加到评分器输出）。

Field	Value
Source	YouTube video (audio aligned to that upload)
Date (processing window)	2026-03-29 (`processtime-at` → `completed-at` in `other.yaml`)
Language	English
Whisper model	large-v3-turbo
Audio duration (YAML label)	17:39
Audio duration (scorer, from VTT)	1059.88 s (≈ 17.7 minutes)
STT processing time	175 s (`sttProcessingTimeSeconds` in `result.json`, from YAML timestamps)
RTF	0.165 (from `result.json`)

YAML 中的墙钟区间：2026-03-29 16:04:37 → 2026-03-29 16:07:32（与 175 秒处理时间一致）。

3. 评估方法

参考与假设均为 WebVTT 文件。从 cue 提取文本，在打分前进行 规范化（大小写、标点、轻度清理）。

词级对齐

用词元序列做 Levenshtein 式动态规划对齐；回溯得到相对参考长度 N 的 替换（S）、删除（D）、插入（I）。

[ \mathrm{WER} = \frac{S + D + I}{N}, \qquad \mathrm{Accuracy} = 1 - \mathrm{WER}. ]

Character Error Rate（CER）

去除空白；字符编辑距离为字符级 Levenshtein 距离。

[ \mathrm{CER} = \frac{\text{Character edit distance}}{\text{Reference character count (no spaces)}}. ]

Real-Time Factor（RTF）

[ \mathrm{RTF} = \frac{\text{STT processing time}}{\text{Audio duration}}. ]

RTF 小于 1 表示在本运行中解码快于实时。

4. 模型概览

Whisper large-v3-turbo 相对更重的「large」变体，追求 更强质量与更高吞吐（具体行为取决于实现与硬件）。它是通用多语言 ASR，适用于不假设逐字完美的 草稿转写、检索与 字幕草稿。本基准仅使用记录在 other.yaml 中的一种解码配置；未扫描解码选项、VAD 或后处理。

5. 结果（来自 `result.json`）

精确指标：

参考词数（N）： 9627
替换（S）： 60
删除（D）： 6449
插入（I）： 0
WER： 0.6761192479484782
Accuracy： 0.3238807520515218
参考字符数： 38334
字符编辑距离： 25696
CER： 0.6703187770647467
音频时长（秒）： 1059.8809999999999
STT 处理时间（秒）： 175
RTF： 0.16511287587946197
评估脚本运行时间（秒）： 25.612

为便于阅读而取整

WER ≈ 67.6%；accuracy ≈ 32.4%
CER ≈ 67.0%
约 38.3k 参考字符上约 25.7k 次字符编辑
RTF ≈ 0.165×（约为实时的 6 倍速）

6. 错误形态分析

插入为 0，删除远超替换（6449 对 60）。这不是常见的「嘈杂 ASR 多出填充词」形态；它指向在此对齐下，假设 未能匹配 参考中的 大段文字——与 时长不一致、不同分段，或 参考涵盖比 ASR 所听更多内容（例如字幕文件 vs 音频片段）一致。CER ≈ 67% 进一步说明差距是 宽泛的，而非少量换词。

对产研团队：在确认 同一音频窗口、同一语言 以及字幕导出与模型输出之间 可比文本规范化 之前，不要按口语把结果理解成「Whisper 听错了 68% 的词」。

7. 要点

速度： RTF ≈ 0.17 有利于长片段批处理。
精度： 若需忠实引用，约 68% WER 未经审阅不宜直接发布。
错误形状： 删多、零插 —— 在调模型前应先核查 配对与覆盖。
场景真实度： 约 18 分钟 来自 真实 YouTube 的连续英语，比玩具片段更有代表性，但仍只是一个视频与一种模型设置。
参考选择： 使用 平台字幕 将测试锚定在 观众可见 的基线上，可能与人工重转写不同。

8. 该场景下的「最佳模型」

在「本片段上的 large-v3-turbo，参考为 YouTube 字幕」这一狭义范围内，本次运行是 已记录的基线：固定吞吐（RTF）与 定量偏差（WER/CER）以供后续对比。并非声称该模型适用于所有英语 YouTube 内容。

9. 中性结论

对 内部草稿、主题标注或粗检索，若相关方接受错误率并校验关键段落，低 RTF 可使该栈可用。

对 逐字引用、合规或无障碍关键字幕，约 32% 词级 accuracy 与 删除主导 的错误意味着 人工复核 或 对齐修正 仍属必需。输入变更后请重新跑评分器；方法学保持可比。

源材料

用例文件夹名 {case-name} = 20260329（发布资源时在仓库 test-transcripts/ 下镜像）。

原始视频（音频来源）： https://www.youtube.com/watch?v=E73XCmLAFe8 — 参考字幕为本 视频所附字幕（导出为 ref.vtt）。
参考转写（VTT）： test-transcripts/{case-name}/ref.vtt
模型转写（VTT）： test-transcripts/{case-name}/model.vtt
运行元数据： test-transcripts/{case-name}/other.yaml
预计算评估指标： test-transcripts/{case-name}/result.json

评分使用本仓库中的 scripts/evaluate-vtt-metrics.js。对长转写，如有需要请以 提高堆上限 的方式运行 Node（例如 NODE_OPTIONS=--max-old-space-size=8192）。

Whisper Large v3 Turbo 在英语 YouTube 音频上的表现 — 2026年3月29日基准测试（WER、CER、RTF）

1. 该基准为何重要

2. 测试设置

3. 评估方法

4. 模型概览

5. 结果（来自 `result.json`）

6. 错误形态分析

7. 要点

8. 该场景下的「最佳模型」

9. 中性结论

源材料

相关文章

Whisper Medium 在英语 YouTube 音频上的测试 —— 2026-03-31 基准（WER、CER、RTF）

Whisper Medium 在英语 YouTube 音频上的测试 —— 2026-03-30 基准（WER、CER、RTF）

Whisper Large v3 Turbo 英语访谈评测 — 2026 年 3 月 28 日基准（WER、CER、RTF）

立即免費試用

Whisper Large v3 Turbo 在英语 YouTube 音频上的表现 — 2026年3月29日基准测试（WER、CER、RTF）

1. 该基准为何重要

2. 测试设置

3. 评估方法

4. 模型概览

5. 结果（来自 result.json）

6. 错误形态分析

7. 要点

8. 该场景下的「最佳模型」

9. 中性结论

源材料

相关文章

Whisper Medium 在英语 YouTube 音频上的测试 —— 2026-03-31 基准（WER、CER、RTF）

Whisper Medium 在英语 YouTube 音频上的测试 —— 2026-03-30 基准（WER、CER、RTF）

Whisper Large v3 Turbo 英语访谈评测 — 2026 年 3 月 28 日基准（WER、CER、RTF）

立即免費試用

5. 结果（来自 `result.json`）