Whisper Large v3 Turbo 英语访谈评测 — 2026 年 3 月 28 日基准(WER、CER、RTF)

Whisper Large v3 Turbo 英语访谈评测 — 2026 年 3 月 28 日基准(WER、CER、RTF)

2026-03-28Test
Eric King

Eric King

Author


本文记录一次固定配置、单一运行的英语访谈风格音频(约 8.5 分钟)评测。评分器报告词错误率约 69%,且错误预算以删除为主(2192 次删除对 188 次替换,0 次插入)。该形态通常意味着假设文本覆盖参考的程度远低于典型的「有噪声但完整」转写;因此数值应作诊断性阅读,并人工核对模型输出与参考是否描述同一录音与分段。
视频与参考文本。 受测音频来自一条源视频(链接见下)。参考 WebVTT(ref.vtt)即该视频附带的字幕轨道 — 从平台字幕导出或保存为 WebVTT — 并非独立撰写的「金标准」转写。假设(model.vtt为同一音频上的 Whisper large-v3-turbo ASR 输出。指标因此比较平台提供的字幕本次 ASR 运行,属于实用基线,但不等同于相对人工整理研究转写的评分。

1. 本基准的意义

访谈音频以重叠语音、不均匀节奏、姓名与数字等条件考验 ASR,在编辑与研究工作中很常见。公开模型 ID、语言、时长、时间戳与标准指标,可使该次运行与复跑或其他流水线可比;目标是透明性,而非产品宣传。

2. 测试设置

除非另有说明,下表数值来自本案例的 other.yamlresult.json
字段
日期(处理窗口)2026-03-28(见 other.yamlprocesstime-at / completed-at
场景英语访谈风格内容(语言标签:English
Whisper 模型large-v3-turboother.yamlwhisper-model
音频时长(YAML)08:25(8 分 25 秒墙钟标注)
音频时长(评分器)506.88 秒(来自 result.json 中参考 VTT 的 cue 跨度)
墙钟处理区间processtime-at2026-03-28 09:56:40.204completed-at2026-03-28 09:57:57.000
推导的 STT 处理时间76.8 秒(上述两时间戳之差;未写入 result.json,因本运行使用显式双文件 VTT 模式且评分器输出未附带 YAML)
推导 RTF0.151(处理时间 ÷ 音频时长 506.88 秒)
说明: 对该显式双文件运行,result.json"yamlMeta": null,其中 RTF 亦为 null。本文中的处理时间与 RTF 为与方法论章节一致,从 other.yaml重算

3. 评估方法论

参考与假设均为 WebVTT 文件。从 cue 提取纯文本(去除时间戳与索引),评分前进行规范化(大小写、标点与简单排版)。
词级对齐
参考与假设作为词元序列对齐。标准 Levenshtein 风格动态规划在两词序列间寻找最小代价路径;回溯得到相对参考长度 N替换(S)删除(D)、**插入(I)**计数。
词错误率(WER)准确率
设 (S)、(D)、(I) 分别为替换、删除、插入计数,(N) 为参考词数。
[ \mathrm{WER} = \frac{S + D + I}{N}, \qquad \mathrm{Accuracy} = 1 - \mathrm{WER}. ]
字错误率(CER)
从规范化字符串中移除空白。字符编辑距离为字符级 Levenshtein 距离;参考字符数为不含空格的参考字符串长度。
[ \mathrm{CER} = \frac{\text{Character edit distance}}{\text{Reference character count}}. ]
实时因子(RTF)
[ \mathrm{RTF} = \frac{\text{Processing time (seconds)}}{\text{Audio duration (seconds)}}. ]
RTF 小于 1 表示在本硬件/本次运行中解码快于实时。

4. 模型概览

Whisper large-v3-turbo 属于「large」族,相对完整 large 检查点在计算与吞吐之间取舍(具体行为取决于实现与硬件)。它是面向草稿与检索索引、不假设完美保真度的通用多语言 ASR。本测试仅覆盖 other.yaml 中的一种配置;未扫描温度、分块或 VAD。

5. 结果(来自 result.json

预计算指标对象的精确值:
  • 参考词数(N): 3442
  • 替换(S): 188
  • 删除(D): 2192
  • 插入(I): 0
  • WER: 0.6914584543869843
  • 准确率: 0.3085415456130157
  • 参考字符数: 15790
  • 字符编辑距离: 10494
  • CER: 0.664597846738442
  • 音频时长(秒): 506.88
  • JSON 内 STT 处理时间: null(YAML 推导值见第 2 节)
  • JSON 内 RTF: null(用 YAML 时间戳推导 RTF ≈ 0.151
  • 评估脚本运行时间: 3.11 秒
便于阅读的取整
  • WER ≈ 69.1%准确率 ≈ 30.9%
  • CER ≈ 66.5%
  • 10.5k 次字符编辑,对应约 15.8k 参考字符
  • RTF ≈ 0.15×(以 YAML 推导处理时间计,本片段快于实时)

6. 错误形态分析

I = 0 下,相对该对齐假设未增加多余词;词级错误质量几乎全是删除与替换,且删除比替换大约一个数量级2192188)。
实践解读:
  • 删除偏重常表明假设存在缺失片段(静音处理、提前结束、片段长度不一致,或参考长于实际被转写的音频)。
  • 零插入在杂乱的真实 ASR 中少见;若伴随极高 WER,应在将分数仅归因于「模型质量」之前,核对数据配对(同一文件、语言、参考版本)。
CER ~66% 与参考与假设之间大段文本不匹配一致,而非仅有零星换词。

7. 要点

  • 速度: 推导 RTF ≈ 0.15 表明对本片段栈在实时的一小部分时间内完成 — 在关注延迟时有用,与原始 WER 无关。
  • 精度: WER ~69% 不足以在无重度人工审阅下用于可发表引语或法律级转写。
  • 错误形状: 删除占主导;在调节解码超参数之前,应优先排查覆盖率分段对齐
  • 单样本局限: 一次访谈与一种模型配置不能定义跨口音、编解码器或噪声的预期生产表现。
  • 可复现性: 四类产物一并保存可保留冻结快照。

8. 该场景下的「最佳模型」

仅就该片段与该参考而言,Whisper large-v3-turbo 是一条有文档记录的基线:时间戳描述吞吐;WER/CER 描述相对您参考的不匹配。声称其适用于所有英语访谈。

9. 中性结论

在可接受错误且重视速度的草稿笔记、内部检索或粗索引场景,低 RTF 与存档转写在明确免责声明下仍可能可用
引用参与者、合规敏感流程或档案发布,本次运行的约 31% 词准确率删除偏重错误形态意味着:在验证对上的分数改善之前,应假定需要人工校对不同的采集/参考对齐
修复数据问题后重新运行评分器;方法论保持可比

来源材料

案例文件夹名:20260328(仓库路径前缀:test-transcripts/20260328/)。
  • 原始视频(音频来源): 补充用作参考字幕的同一视频的规范 URL(例如 YouTube 观看链接)。用于 ASR 的音频应对应该上传。
  • 参考转写(VTT): test-transcripts/20260328/ref.vtt源视频配套字幕,存为 WebVTT 供评分。
  • 模型转写(VTT): test-transcripts/20260328/model.vtt — 该音频上 Whisper large-v3-turbo 的输出。
  • 运行元数据: test-transcripts/20260328/other.yaml
  • 预计算评估指标: test-transcripts/20260328/result.json
评测由本仓库的 scripts/evaluate-vtt-metrics.js 生成。将上述文件置于 test-transcripts/20260328/ 可复现文中数字。

立即免費試用

現在就體驗我們的 AI 語音與音視頻服務!不僅可以享受高精度語音轉文字、多語言翻譯與智能說話人識別,還能自動生成視頻字幕、智能編輯音視頻內容並進行聲畫同步分析,全面覆蓋會議記錄、短視頻創作、播客製作等場景——立即開始免費試用吧!

在线声音转文字免费声音转文字声音转文字转换器声音转文字 MP3声音转文字 WAV声音转文字(带时间戳)会议声音转文字Sound to Text Multi Language声音转文字字幕转换WAV为文字语音转文字在线语音转文字语音转文字转换MP3为文字语音录音转文字在线语音输入带时间戳的语音转文字实时语音转文字长音频语音转文字视频语音转文字YouTube语音转文字视频编辑语音转文字字幕语音转文字播客语音转文字采访语音转文字访谈音频转文字录音语音转文字会议语音转文字讲座语音转文字语音笔记转文字多语言语音转文字高准确度语音转文字快速语音转文字Premiere Pro 语音转文字替代方案DaVinci 语音转文字替代方案VEED 语音转文字替代方案InVideo 语音转文字替代方案Otter.ai 语音转文字替代方案Descript 语音转文字替代方案Trint 语音转文字替代方案Rev 语音转文字替代方案Sonix 语音转文字替代方案Happy Scribe 语音转文字替代方案Zoom 语音转文字替代方案Google Meet 语音转文字替代方案Microsoft Teams 语音转文字替代方案Fireflies.ai 语音转文字替代方案Fathom 语音转文字替代方案FlexClip 语音转文字替代方案Kapwing 语音转文字替代方案Canva 语音转文字替代方案长音频语音转文字AI语音转文字免费语音转文字无广告语音转文字噪音音频语音转文字带时间戳的语音转文字从音频生成字幕播客转录在线转录客户通话TikTok语音转文字TikTok音频转文字YouTube语音转文字YouTube音频转文字语音备忘录转文字WhatsApp语音消息转文字Telegram语音转文字Discord通话转录Twitch语音转文字Skype语音转文字Messenger语音转文字LINE语音消息转文字Vlog转录转文字讲道音频转文字语音转文字音频转文字语音笔记转文字语音输入会议语音输入YouTube语音输入说话打字免提打字语音转文字语音转文字在线语音转文字Online Transcription Software会议语音转文字快速语音转文字Real Time Speech to TextLive Transcription AppTikTok语音转文字TikTok音频转文字说话转文字语音转文字Talk to Text FreeTalk to Text OnlineTalk to Text for YouTubeTalk to Text for SubtitlesTalk to Text for Content CreatorsTalk to Text for Meetings音频转文字声音转文字语音写作工具语音写作工具语音听写法律转录工具医疗语音听写工具日语音频转录韩语会议转录会议转录工具会议音频转文字讲座转文字转换器讲座音频转文字视频转文字转录TikTok字幕生成器呼叫中心转录Reels音频转文字工具MP3转录为文字WAV文件转录为文字CapCut语音转文字CapCut语音转文字英语语音转文字英语音频转文字西班牙语语音转文字法语语音转文字法语音频转文字德语语音转文字德语音频转文字日语语音转文字日语音频转文字韩语语音转文字韩语音频转文字葡萄牙语语音转文字阿拉伯语语音转文字中文语音转文字印地语语音转文字俄语语音转文字网页语音输入工具语音输入网站