
Whisper Large v3 Turbo 英语访谈评测 — 2026 年 3 月 28 日基准(WER、CER、RTF)
2026-03-28Test
Eric King
Author
本文记录一次固定配置、单一运行的英语访谈风格音频(约 8.5 分钟)评测。评分器报告词错误率约 69%,且错误预算以删除为主(2192 次删除对 188 次替换,0 次插入)。该形态通常意味着假设文本覆盖参考的程度远低于典型的「有噪声但完整」转写;因此数值应作诊断性阅读,并人工核对模型输出与参考是否描述同一录音与分段。
视频与参考文本。 受测音频来自一条源视频(链接见下)。参考 WebVTT(
ref.vtt)即该视频附带的字幕轨道 — 从平台字幕导出或保存为 WebVTT — 并非独立撰写的「金标准」转写。假设(model.vtt)为同一音频上的 Whisper large-v3-turbo ASR 输出。指标因此比较平台提供的字幕与本次 ASR 运行,属于实用基线,但不等同于相对人工整理研究转写的评分。1. 本基准的意义
访谈音频以重叠语音、不均匀节奏、姓名与数字等条件考验 ASR,在编辑与研究工作中很常见。公开模型 ID、语言、时长、时间戳与标准指标,可使该次运行与复跑或其他流水线可比;目标是透明性,而非产品宣传。
2. 测试设置
除非另有说明,下表数值来自本案例的
other.yaml 与 result.json。| 字段 | 值 |
|---|---|
| 日期(处理窗口) | 2026-03-28(见 other.yaml 中 processtime-at / completed-at) |
| 场景 | 英语访谈风格内容(语言标签:English) |
| Whisper 模型 | large-v3-turbo(other.yaml 中 whisper-model) |
| 音频时长(YAML) | 08:25(8 分 25 秒墙钟标注) |
| 音频时长(评分器) | 506.88 秒(来自 result.json 中参考 VTT 的 cue 跨度) |
| 墙钟处理区间 | processtime-at:2026-03-28 09:56:40.204 → completed-at:2026-03-28 09:57:57.000 |
| 推导的 STT 处理时间 | ≈ 76.8 秒(上述两时间戳之差;未写入 result.json,因本运行使用显式双文件 VTT 模式且评分器输出未附带 YAML) |
| 推导 RTF | ≈ 0.151(处理时间 ÷ 音频时长 506.88 秒) |
说明: 对该显式双文件运行,
result.json 中 "yamlMeta": null,其中 RTF 亦为 null。本文中的处理时间与 RTF 为与方法论章节一致,从 other.yaml重算。3. 评估方法论
参考与假设均为 WebVTT 文件。从 cue 提取纯文本(去除时间戳与索引),评分前进行规范化(大小写、标点与简单排版)。
词级对齐
参考与假设作为词元序列对齐。标准 Levenshtein 风格动态规划在两词序列间寻找最小代价路径;回溯得到相对参考长度 N 的替换(S)、删除(D)、**插入(I)**计数。
词错误率(WER)与准确率
设 (S)、(D)、(I) 分别为替换、删除、插入计数,(N) 为参考词数。
[
\mathrm{WER} = \frac{S + D + I}{N}, \qquad \mathrm{Accuracy} = 1 - \mathrm{WER}.
]
字错误率(CER)
从规范化字符串中移除空白。字符编辑距离为字符级 Levenshtein 距离;参考字符数为不含空格的参考字符串长度。
[
\mathrm{CER} = \frac{\text{Character edit distance}}{\text{Reference character count}}.
]
实时因子(RTF)
[
\mathrm{RTF} = \frac{\text{Processing time (seconds)}}{\text{Audio duration (seconds)}}.
]
RTF 小于 1 表示在本硬件/本次运行中解码快于实时。
4. 模型概览
Whisper large-v3-turbo 属于「large」族,相对完整 large 检查点在计算与吞吐之间取舍(具体行为取决于实现与硬件)。它是面向草稿与检索索引、不假设完美保真度的通用多语言 ASR。本测试仅覆盖
other.yaml 中的一种配置;未扫描温度、分块或 VAD。5. 结果(来自 result.json)
预计算指标对象的精确值:
- 参考词数(N): 3442
- 替换(S): 188
- 删除(D): 2192
- 插入(I): 0
- WER: 0.6914584543869843
- 准确率: 0.3085415456130157
- 参考字符数: 15790
- 字符编辑距离: 10494
- CER: 0.664597846738442
- 音频时长(秒): 506.88
- JSON 内 STT 处理时间:
null(YAML 推导值见第 2 节) - JSON 内 RTF:
null(用 YAML 时间戳推导 RTF ≈ 0.151) - 评估脚本运行时间: 3.11 秒
便于阅读的取整
- WER ≈ 69.1%;准确率 ≈ 30.9%
- CER ≈ 66.5%
- 约 10.5k 次字符编辑,对应约 15.8k 参考字符
- RTF ≈ 0.15×(以 YAML 推导处理时间计,本片段快于实时)
6. 错误形态分析
在 I = 0 下,相对该对齐假设未增加多余词;词级错误质量几乎全是删除与替换,且删除比替换大约一个数量级(2192 对 188)。
实践解读:
- 删除偏重常表明假设存在缺失片段(静音处理、提前结束、片段长度不一致,或参考长于实际被转写的音频)。
- 零插入在杂乱的真实 ASR 中少见;若伴随极高 WER,应在将分数仅归因于「模型质量」之前,核对数据配对(同一文件、语言、参考版本)。
CER ~66% 与参考与假设之间大段文本不匹配一致,而非仅有零星换词。
7. 要点
- 速度: 推导 RTF ≈ 0.15 表明对本片段栈在实时的一小部分时间内完成 — 在关注延迟时有用,与原始 WER 无关。
- 精度: WER ~69% 不足以在无重度人工审阅下用于可发表引语或法律级转写。
- 错误形状: 删除占主导;在调节解码超参数之前,应优先排查覆盖率与分段对齐。
- 单样本局限: 一次访谈与一种模型配置不能定义跨口音、编解码器或噪声的预期生产表现。
- 可复现性: 四类产物一并保存可保留冻结快照。
8. 该场景下的「最佳模型」
仅就该片段与该参考而言,Whisper large-v3-turbo 是一条有文档记录的基线:时间戳描述吞吐;WER/CER 描述相对您参考的不匹配。不声称其适用于所有英语访谈。
9. 中性结论
在可接受错误且重视速度的草稿笔记、内部检索或粗索引场景,低 RTF 与存档转写在明确免责声明下仍可能可用。
对引用参与者、合规敏感流程或档案发布,本次运行的约 31% 词准确率与删除偏重错误形态意味着:在验证对上的分数改善之前,应假定需要人工校对或不同的采集/参考对齐。
修复数据问题后重新运行评分器;方法论保持可比。
来源材料
案例文件夹名:
20260328(仓库路径前缀:test-transcripts/20260328/)。- 原始视频(音频来源): 补充用作参考字幕的同一视频的规范 URL(例如 YouTube 观看链接)。用于 ASR 的音频应对应该上传。
- 参考转写(VTT):
test-transcripts/20260328/ref.vtt— 源视频配套字幕,存为 WebVTT 供评分。 - 模型转写(VTT):
test-transcripts/20260328/model.vtt— 该音频上 Whisper large-v3-turbo 的输出。 - 运行元数据:
test-transcripts/20260328/other.yaml - 预计算评估指标:
test-transcripts/20260328/result.json
评测由本仓库的
scripts/evaluate-vtt-metrics.js 生成。将上述文件置于 test-transcripts/20260328/ 可复现文中数字。