🎉我们网站近期上线,正在试运营阶段!现在完全免费使用,收费时间待定。

Whisper Medium 在英语 YouTube 音频上的测试 —— 2026-03-31 基准(WER、CER、RTF)

Whisper Medium 在英语 YouTube 音频上的测试 —— 2026-03-31 基准(WER、CER、RTF)

2026-03-31Test
Eric King

Eric King

Author


本次评测使用固定配置:whisper-model: mediumlanguage: English,数据来自 YouTube 场景长音频。result.json 显示 strict 指标为 WER 67.75%Accuracy 32.25%,并且错误高度集中在删除(D=5722S=68I=0)。这更像“覆盖与对齐偏差”而不是纯粹的少量听错,因此结论应作为可复现基线,而非营销口径的“准确率”。
参考文本来自视频字幕轨(ref.vtt),模型输出为 model.vtt,两者比较衡量的是“模型结果与平台字幕的一致性”。这对生产流程(字幕质检、检索、内容复用)很有价值,但不等同于人工金标准评测。

1. 为什么这个基准有代表性

YouTube 长音频比短演示更接近真实业务:语速波动、口语化表达、段落切换、编辑痕迹都会影响 ASR。若你的目标是字幕一致性检查、检索索引或草稿生成,这类数据比实验室干净语音更有参考意义。

2. 测试设置

  • 视频来源:https://www.youtube.com/watch?v=7J96ESznKMQ
  • 语言:English
  • 模型:Whisper medium
  • YAML 时长:17:20
  • 评测时长:1040 秒(约 17.33 分钟)
  • STT 处理耗时:133 秒
  • RTF:0.12788461538461537
  • 处理时间窗口:2026-03-31 19:20:56 → 2026-03-31 19:23:09

3. 评测方法(scripts/evaluate-vtt-metrics.js

脚本会抽取 VTT 文本并进行归一化,再用 Levenshtein 对齐得到 S/D/I/N
[ \mathrm{WER} = \frac{S + D + I}{N},\quad \mathrm{Accuracy}=1-\mathrm{WER} ]
[ \mathrm{CER} = \frac{\text{Character Edit Distance}}{\text{Reference Character Count}} ]
[ \mathrm{RTF}=\frac{\text{Processing Time}}{\text{Audio Duration}} ]
当前脚本同时输出:
  • strictMetrics:严格规范化
  • relaxedMetrics:更宽松规范化(如引号、数字格式)

4. 模型概览

Whisper medium 是常见的通用折中配置,通常在速度与可用精度之间取得平衡,适合草稿转写、检索、NLP 前处理,但在逐字发布场景仍需复核。

5. 结果(来自 result.json

Strict / metrics
  • N=8546, S=68, D=5722, I=0
  • WER=0.6775099461736485
  • Accuracy=0.32249005382635154
  • CER=0.6670790930743296
  • Character edit distance=21566
  • Reference characters=32329
  • Audio duration=1040
  • STT processing=133
  • RTF=0.12788461538461537
Relaxed
  • WER=0.6775099461736485
  • Accuracy=0.32249005382635154
  • CER=0.6667603347071313
易读版
  • Strict:WER≈67.75%,Accuracy≈32.25%,CER≈66.71%
  • Relaxed:WER≈67.75%,Accuracy≈32.25%,CER≈66.68%
  • RTF≈0.128(约 7.8x 实时速度)

6. 错误模式分析

I=0D 远大于 S,表明问题核心是“参考文本中大量词未在假设中对齐”,常见于分段边界、覆盖范围、字幕来源差异,而不只是随机听错。strict 与 relaxed 差距很小,也说明格式噪声不是主要矛盾。

7. 关键结论

  • 速度可用:RTF 明显低于 1。
  • 精度不足以直接用于高风险逐字发布。
  • 优先排查覆盖/对齐,再谈模型参数微调。
  • strict/relaxed 接近,说明结果稳定。
  • 单样本仍不足以代表全部英语 YouTube 场景。

8. 本场景下“最佳模型”结论

在“仅此配置、仅此视频、仅此参考来源”条件下,Whisper medium 可作为可复现实验基线;它定义了后续 A/B 对比的起点,但不代表全局最优。

9. 中立结论

如果目标是草稿、检索、主题提取,这套配置有实用价值;如果目标是逐字引用、合规存档、无障碍高质量字幕,当前结果仍需要人工校对或更强方案。

来源资料

  • Original audio (video): https://www.youtube.com/watch?v=7J96ESznKMQ
  • Reference transcript (VTT): test-transcripts/{case-name}/ref.vtt
  • Model transcript (VTT): test-transcripts/{case-name}/model.vtt
  • Run metadata: test-transcripts/{case-name}/other.yaml
  • Precomputed evaluation metrics: test-transcripts/{case-name}/result.json
{case-name} = 20260331。评测脚本:scripts/evaluate-vtt-metrics.js

立即免費試用

現在就體驗我們的 AI 語音與音視頻服務!不僅可以享受高精度語音轉文字、多語言翻譯與智能說話人識別,還能自動生成視頻字幕、智能編輯音視頻內容並進行聲畫同步分析,全面覆蓋會議記錄、短視頻創作、播客製作等場景——立即開始免費試用吧!

在线声音转文字免费声音转文字声音转文字转换器声音转文字 MP3声音转文字 WAV声音转文字(带时间戳)Sound to Text for MeetingsSound to Text Multi Language声音转文字字幕转换WAV为文字语音转文字在线语音转文字语音转文字转换MP3为文字语音录音转文字在线语音输入带时间戳的语音转文字实时语音转文字长音频语音转文字视频语音转文字YouTube语音转文字视频编辑语音转文字字幕语音转文字播客语音转文字采访语音转文字访谈音频转文字录音语音转文字会议语音转文字讲座语音转文字语音笔记转文字多语言语音转文字高准确度语音转文字快速语音转文字Premiere Pro 语音转文字替代方案DaVinci 语音转文字替代方案VEED 语音转文字替代方案InVideo 语音转文字替代方案Otter.ai 语音转文字替代方案Descript 语音转文字替代方案Trint 语音转文字替代方案Rev 语音转文字替代方案Sonix 语音转文字替代方案Happy Scribe 语音转文字替代方案Zoom 语音转文字替代方案Google Meet 语音转文字替代方案Microsoft Teams 语音转文字替代方案Fireflies.ai 语音转文字替代方案Fathom 语音转文字替代方案FlexClip 语音转文字替代方案Kapwing 语音转文字替代方案Canva 语音转文字替代方案长音频语音转文字AI语音转文字免费语音转文字无广告语音转文字噪音音频语音转文字带时间戳的语音转文字从音频生成字幕播客转录在线转录客户通话TikTok语音转文字TikTok音频转文字YouTube语音转文字YouTube音频转文字语音备忘录转文字WhatsApp语音消息转文字Telegram语音转文字Discord通话转录Twitch语音转文字Skype语音转文字Messenger语音转文字LINE语音消息转文字Vlog转录转文字讲道音频转文字语音转文字音频转文字语音笔记转文字语音输入会议语音输入YouTube语音输入说话打字免提打字语音转文字语音转文字在线语音转文字Online Transcription Software会议语音转文字快速语音转文字Real Time Speech to TextLive Transcription AppTikTok语音转文字TikTok音频转文字说话转文字语音转文字Talk to Text FreeTalk to Text OnlineTalk to Text for YouTubeTalk to Text for SubtitlesTalk to Text for Content CreatorsTalk to Text for Meetings音频转文字声音转文字语音写作工具语音写作工具语音听写法律转录工具医疗语音听写工具日语音频转录韩语会议转录会议转录工具会议音频转文字讲座转文字转换器讲座音频转文字视频转文字转录TikTok字幕生成器呼叫中心转录Reels音频转文字工具MP3转录为文字WAV文件转录为文字CapCut语音转文字CapCut语音转文字英语语音转文字英语音频转文字西班牙语语音转文字法语语音转文字法语音频转文字德语语音转文字德语音频转文字日语语音转文字日语音频转文字韩语语音转文字韩语音频转文字葡萄牙语语音转文字阿拉伯语语音转文字中文语音转文字印地语语音转文字俄语语音转文字网页语音输入工具语音输入网站