Whisper Large v3 Turbo 在英语 YouTube 音频上的表现 — 2026年3月29日基准测试(WER、CER、RTF)

Whisper Large v3 Turbo 在英语 YouTube 音频上的表现 — 2026年3月29日基准测试(WER、CER、RTF)

2026-03-29Test
Eric King

Eric King

Author


本文记录一次在 YouTube 上传素材上、约 18 分钟 英语音频的 固定配置 运行。评分器报告 WER ≈ 67.6%,且 删除占主导6 449 次删除对 60 次替换,0 次插入)。该形态表明假设转写相对参考在 覆盖度 上对齐较差——常见于参考为 平台字幕轨 而 ASR 输出对应不同分段或时长——因此数值应作 诊断性 阅读,而非孤立的、已打磨的「准确率分数」。
视频与参考文本。 参考 WebVTT(ref.vtt源视频所附带的字幕文本(导出为 WebVTT)。假设(model.vtt 为在同一底层音频上运行的 Whisper large-v3-turbo。指标比较的是 这些字幕本次 ASR 运行 —— 用于衡量「我们的流水线与 YouTube 实际推送的字幕有多接近」的实用基线,而非关于经人工核验的真值转写的主张。

1. 该基准为何重要

YouTube 式语音在真实工作流中极为常见:麦克风质量起伏、铺底音乐、剪辑、长独白或对白。以 真实平台字幕 为参考评估 ASR,可回答一个具体问题:若我们在同一音频上跑自有 Whisper 技术栈,文本会与观众已看到的字幕相差多少? 这对字幕质检、内容再利用与搜索索引很有用——「是否足够好」取决于产品,但 数字必须可复现

2. 测试设置

下列数值来自本用例的 other.yamlresult.json(目录模式,以便将 YAML 元数据附加到评分器输出)。
FieldValue
SourceYouTube video (audio aligned to that upload)
Date (processing window)2026-03-29 (processtime-atcompleted-at in other.yaml)
LanguageEnglish
Whisper modellarge-v3-turbo
Audio duration (YAML label)17:39
Audio duration (scorer, from VTT)1059.88 s (≈ 17.7 minutes)
STT processing time175 s (sttProcessingTimeSeconds in result.json, from YAML timestamps)
RTF0.165 (from result.json)
YAML 中的墙钟区间:2026-03-29 16:04:372026-03-29 16:07:32(与 175 秒处理时间一致)。

3. 评估方法

参考与假设均为 WebVTT 文件。从 cue 提取文本,在打分前进行 规范化(大小写、标点、轻度清理)。
词级对齐
用词元序列做 Levenshtein 式动态规划对齐;回溯得到相对参考长度 N替换(S)删除(D)插入(I)
[ \mathrm{WER} = \frac{S + D + I}{N}, \qquad \mathrm{Accuracy} = 1 - \mathrm{WER}. ]
Character Error Rate(CER)
去除空白;字符编辑距离为字符级 Levenshtein 距离。
[ \mathrm{CER} = \frac{\text{Character edit distance}}{\text{Reference character count (no spaces)}}. ]
Real-Time Factor(RTF)
[ \mathrm{RTF} = \frac{\text{STT processing time}}{\text{Audio duration}}. ]
RTF 小于 1 表示在本运行中解码快于实时。

4. 模型概览

Whisper large-v3-turbo 相对更重的「large」变体,追求 更强质量与更高吞吐(具体行为取决于实现与硬件)。它是 通用 多语言 ASR,适用于不假设逐字完美的 草稿转写检索字幕草稿。本基准仅使用记录在 other.yaml 中的 一种 解码配置;未扫描解码选项、VAD 或后处理。

5. 结果(来自 result.json

精确指标:
  • 参考词数(N): 9627
  • 替换(S): 60
  • 删除(D): 6449
  • 插入(I): 0
  • WER: 0.6761192479484782
  • Accuracy: 0.3238807520515218
  • 参考字符数: 38334
  • 字符编辑距离: 25696
  • CER: 0.6703187770647467
  • 音频时长(秒): 1059.8809999999999
  • STT 处理时间(秒): 175
  • RTF: 0.16511287587946197
  • 评估脚本运行时间(秒): 25.612
为便于阅读而取整
  • WER ≈ 67.6%accuracy ≈ 32.4%
  • CER ≈ 67.0%
  • 38.3k 参考字符上约 25.7k 次字符编辑
  • RTF ≈ 0.165×(约为实时的 6 倍速)

6. 错误形态分析

插入为 0删除远超替换644960)。这不是常见的「嘈杂 ASR 多出填充词」形态;它指向在此对齐下,假设 未能匹配 参考中的 大段文字——与 时长不一致不同分段,或 参考涵盖比 ASR 所听更多内容(例如字幕文件 vs 音频片段)一致。CER ≈ 67% 进一步说明差距是 宽泛的,而非少量换词。
对产研团队:在确认 同一音频窗口同一语言 以及字幕导出与模型输出之间 可比文本规范化 之前,不要按口语把结果理解成「Whisper 听错了 68% 的词」。

7. 要点

  • 速度: RTF ≈ 0.17 有利于长片段批处理。
  • 精度: 若需忠实引用,约 68% WER 未经审阅不宜直接发布。
  • 错误形状: 删多、零插 —— 在调模型前应先核查 配对与覆盖
  • 场景真实度: 约 18 分钟 来自 真实 YouTube 的连续英语,比玩具片段更有代表性,但仍只是 一个 视频与 一种 模型设置。
  • 参考选择: 使用 平台字幕 将测试锚定在 观众可见 的基线上,可能与人工重转写不同。

8. 该场景下的「最佳模型」

在「本片段上的 large-v3-turbo,参考为 YouTube 字幕」这一狭义范围内,本次运行是 已记录的基线:固定 吞吐(RTF)与 定量偏差(WER/CER)以供后续对比。并非声称该模型适用于所有英语 YouTube 内容。

9. 中性结论

内部草稿、主题标注或粗检索,若相关方接受错误率并校验关键段落,低 RTF 可使该栈 可用
逐字引用、合规或无障碍关键字幕约 32% 词级 accuracy删除主导 的错误意味着 人工复核对齐修正 仍属必需。输入变更后请重新跑评分器;方法学保持可比

源材料

用例文件夹名 {case-name} = 20260329(发布资源时在仓库 test-transcripts/ 下镜像)。
  • 原始视频(音频来源): https://www.youtube.com/watch?v=E73XCmLAFe8 — 参考字幕为本 视频所附字幕(导出为 ref.vtt)。
  • 参考转写(VTT): test-transcripts/{case-name}/ref.vtt
  • 模型转写(VTT): test-transcripts/{case-name}/model.vtt
  • 运行元数据: test-transcripts/{case-name}/other.yaml
  • 预计算评估指标: test-transcripts/{case-name}/result.json
评分使用本仓库中的 scripts/evaluate-vtt-metrics.js。对长转写,如有需要请以 提高堆上限 的方式运行 Node(例如 NODE_OPTIONS=--max-old-space-size=8192)。

立即免費試用

現在就體驗我們的 AI 語音與音視頻服務!不僅可以享受高精度語音轉文字、多語言翻譯與智能說話人識別,還能自動生成視頻字幕、智能編輯音視頻內容並進行聲畫同步分析,全面覆蓋會議記錄、短視頻創作、播客製作等場景——立即開始免費試用吧!

在线声音转文字免费声音转文字声音转文字转换器声音转文字 MP3声音转文字 WAV声音转文字(带时间戳)会议声音转文字Sound to Text Multi Language声音转文字字幕转换WAV为文字语音转文字在线语音转文字语音转文字转换MP3为文字语音录音转文字在线语音输入带时间戳的语音转文字实时语音转文字长音频语音转文字视频语音转文字YouTube语音转文字视频编辑语音转文字字幕语音转文字播客语音转文字采访语音转文字访谈音频转文字录音语音转文字会议语音转文字讲座语音转文字语音笔记转文字多语言语音转文字高准确度语音转文字快速语音转文字Premiere Pro 语音转文字替代方案DaVinci 语音转文字替代方案VEED 语音转文字替代方案InVideo 语音转文字替代方案Otter.ai 语音转文字替代方案Descript 语音转文字替代方案Trint 语音转文字替代方案Rev 语音转文字替代方案Sonix 语音转文字替代方案Happy Scribe 语音转文字替代方案Zoom 语音转文字替代方案Google Meet 语音转文字替代方案Microsoft Teams 语音转文字替代方案Fireflies.ai 语音转文字替代方案Fathom 语音转文字替代方案FlexClip 语音转文字替代方案Kapwing 语音转文字替代方案Canva 语音转文字替代方案长音频语音转文字AI语音转文字免费语音转文字无广告语音转文字噪音音频语音转文字带时间戳的语音转文字从音频生成字幕播客转录在线转录客户通话TikTok语音转文字TikTok音频转文字YouTube语音转文字YouTube音频转文字语音备忘录转文字WhatsApp语音消息转文字Telegram语音转文字Discord通话转录Twitch语音转文字Skype语音转文字Messenger语音转文字LINE语音消息转文字Vlog转录转文字讲道音频转文字语音转文字音频转文字语音笔记转文字语音输入会议语音输入YouTube语音输入说话打字免提打字语音转文字语音转文字在线语音转文字Online Transcription Software会议语音转文字快速语音转文字Real Time Speech to TextLive Transcription AppTikTok语音转文字TikTok音频转文字说话转文字语音转文字Talk to Text FreeTalk to Text OnlineTalk to Text for YouTubeTalk to Text for SubtitlesTalk to Text for Content CreatorsTalk to Text for Meetings音频转文字声音转文字语音写作工具语音写作工具语音听写法律转录工具医疗语音听写工具日语音频转录韩语会议转录会议转录工具会议音频转文字讲座转文字转换器讲座音频转文字视频转文字转录TikTok字幕生成器呼叫中心转录Reels音频转文字工具MP3转录为文字WAV文件转录为文字CapCut语音转文字CapCut语音转文字英语语音转文字英语音频转文字西班牙语语音转文字法语语音转文字法语音频转文字德语语音转文字德语音频转文字日语语音转文字日语音频转文字韩语语音转文字韩语音频转文字葡萄牙语语音转文字阿拉伯语语音转文字中文语音转文字印地语语音转文字俄语语音转文字网页语音输入工具语音输入网站