Whisper Large v3 Turbo 英语访谈评测 — 2026 年 3 月 28 日基准（WER、CER、RTF）

本文记录一次固定配置、单一运行的英语访谈风格音频（约 8.5 分钟）评测。评分器报告词错误率约 69%，且错误预算以删除为主（2192 次删除对 188 次替换，0 次插入）。该形态通常意味着假设文本覆盖参考的程度远低于典型的「有噪声但完整」转写；因此数值应作诊断性阅读，并人工核对模型输出与参考是否描述同一录音与分段。

视频与参考文本。 受测音频来自一条源视频（链接见下）。参考 WebVTT（ref.vtt）即该视频附带的字幕轨道 — 从平台字幕导出或保存为 WebVTT — 并非独立撰写的「金标准」转写。假设（model.vtt）为同一音频上的 Whisper large-v3-turbo ASR 输出。指标因此比较平台提供的字幕与本次 ASR 运行，属于实用基线，但不等同于相对人工整理研究转写的评分。

1. 本基准的意义

访谈音频以重叠语音、不均匀节奏、姓名与数字等条件考验 ASR，在编辑与研究工作中很常见。公开模型 ID、语言、时长、时间戳与标准指标，可使该次运行与复跑或其他流水线可比；目标是透明性，而非产品宣传。

2. 测试设置

除非另有说明，下表数值来自本案例的 other.yaml 与 result.json。

字段	值
日期（处理窗口）	2026-03-28（见 `other.yaml` 中 `processtime-at` / `completed-at`）
场景	英语访谈风格内容（语言标签：English）
Whisper 模型	large-v3-turbo（`other.yaml` 中 `whisper-model`）
音频时长（YAML）	08:25（8 分 25 秒墙钟标注）
音频时长（评分器）	506.88 秒（来自 `result.json` 中参考 VTT 的 cue 跨度）
墙钟处理区间	`processtime-at`：2026-03-28 09:56:40.204 → `completed-at`：2026-03-28 09:57:57.000
推导的 STT 处理时间	≈ 76.8 秒（上述两时间戳之差；未写入 `result.json`，因本运行使用显式双文件 VTT 模式且评分器输出未附带 YAML）
推导 RTF	≈ 0.151（处理时间 ÷ 音频时长 506.88 秒）

说明： 对该显式双文件运行，result.json 中 "yamlMeta": null，其中 RTF 亦为 null。本文中的处理时间与 RTF 为与方法论章节一致，从 other.yaml重算。

3. 评估方法论

参考与假设均为 WebVTT 文件。从 cue 提取纯文本（去除时间戳与索引），评分前进行规范化（大小写、标点与简单排版）。

词级对齐

参考与假设作为词元序列对齐。标准 Levenshtein 风格动态规划在两词序列间寻找最小代价路径；回溯得到相对参考长度 N 的替换（S）、删除（D）、**插入（I）**计数。

词错误率（WER）与准确率

设 (S)、(D)、(I) 分别为替换、删除、插入计数，(N) 为参考词数。

[ \mathrm{WER} = \frac{S + D + I}{N}, \qquad \mathrm{Accuracy} = 1 - \mathrm{WER}. ]

字错误率（CER）

从规范化字符串中移除空白。字符编辑距离为字符级 Levenshtein 距离；参考字符数为不含空格的参考字符串长度。

[ \mathrm{CER} = \frac{\text{Character edit distance}}{\text{Reference character count}}. ]

实时因子（RTF）

[ \mathrm{RTF} = \frac{\text{Processing time (seconds)}}{\text{Audio duration (seconds)}}. ]

RTF 小于 1 表示在本硬件/本次运行中解码快于实时。

4. 模型概览

Whisper large-v3-turbo 属于「large」族，相对完整 large 检查点在计算与吞吐之间取舍（具体行为取决于实现与硬件）。它是面向草稿与检索索引、不假设完美保真度的通用多语言 ASR。本测试仅覆盖 other.yaml 中的一种配置；未扫描温度、分块或 VAD。

5. 结果（来自 `result.json`）

预计算指标对象的精确值：

参考词数（N）： 3442
替换（S）： 188
删除（D）： 2192
插入（I）： 0
WER： 0.6914584543869843
准确率： 0.3085415456130157
参考字符数： 15790
字符编辑距离： 10494
CER： 0.664597846738442
音频时长（秒）： 506.88
JSON 内 STT 处理时间： null（YAML 推导值见第 2 节）
JSON 内 RTF： null（用 YAML 时间戳推导 RTF ≈ 0.151）
评估脚本运行时间： 3.11 秒

便于阅读的取整

WER ≈ 69.1%；准确率 ≈ 30.9%
CER ≈ 66.5%
约 10.5k 次字符编辑，对应约 15.8k 参考字符
RTF ≈ 0.15×（以 YAML 推导处理时间计，本片段快于实时）

6. 错误形态分析

在 I = 0 下，相对该对齐假设未增加多余词；词级错误质量几乎全是删除与替换，且删除比替换大约一个数量级（2192 对 188）。

实践解读：

删除偏重常表明假设存在缺失片段（静音处理、提前结束、片段长度不一致，或参考长于实际被转写的音频）。
零插入在杂乱的真实 ASR 中少见；若伴随极高 WER，应在将分数仅归因于「模型质量」之前，核对数据配对（同一文件、语言、参考版本）。

CER ~66% 与参考与假设之间大段文本不匹配一致，而非仅有零星换词。

7. 要点

速度： 推导 RTF ≈ 0.15 表明对本片段栈在实时的一小部分时间内完成 — 在关注延迟时有用，与原始 WER 无关。
精度： WER ~69% 不足以在无重度人工审阅下用于可发表引语或法律级转写。
错误形状： 删除占主导；在调节解码超参数之前，应优先排查覆盖率与分段对齐。
单样本局限： 一次访谈与一种模型配置不能定义跨口音、编解码器或噪声的预期生产表现。
可复现性： 四类产物一并保存可保留冻结快照。

8. 该场景下的「最佳模型」

仅就该片段与该参考而言，Whisper large-v3-turbo 是一条有文档记录的基线：时间戳描述吞吐；WER/CER 描述相对您参考的不匹配。不声称其适用于所有英语访谈。

9. 中性结论

在可接受错误且重视速度的草稿笔记、内部检索或粗索引场景，低 RTF 与存档转写在明确免责声明下仍可能可用。

对引用参与者、合规敏感流程或档案发布，本次运行的约 31% 词准确率与删除偏重错误形态意味着：在验证对上的分数改善之前，应假定需要人工校对或不同的采集/参考对齐。

修复数据问题后重新运行评分器；方法论保持可比。

来源材料

案例文件夹名：20260328（仓库路径前缀：test-transcripts/20260328/）。

原始视频（音频来源）： 补充用作参考字幕的同一视频的规范 URL（例如 YouTube 观看链接）。用于 ASR 的音频应对应该上传。
参考转写（VTT）： test-transcripts/20260328/ref.vtt — 源视频配套字幕，存为 WebVTT 供评分。
模型转写（VTT）： test-transcripts/20260328/model.vtt — 该音频上 Whisper large-v3-turbo 的输出。
运行元数据： test-transcripts/20260328/other.yaml
预计算评估指标： test-transcripts/20260328/result.json

评测由本仓库的 scripts/evaluate-vtt-metrics.js 生成。将上述文件置于 test-transcripts/20260328/ 可复现文中数字。

Whisper Large v3 Turbo 英语访谈评测 — 2026 年 3 月 28 日基准（WER、CER、RTF）

1. 本基准的意义

2. 测试设置

3. 评估方法论

4. 模型概览

5. 结果（来自 `result.json`）

6. 错误形态分析

7. 要点

8. 该场景下的「最佳模型」

9. 中性结论

来源材料

相关文章

Whisper Medium 在英语 YouTube 音频上的测试 —— 2026-03-31 基准（WER、CER、RTF）

Whisper Medium 在英语 YouTube 音频上的测试 —— 2026-03-30 基准（WER、CER、RTF）

Whisper Large v3 Turbo 在英语 YouTube 音频上的表现 — 2026年3月29日基准测试（WER、CER、RTF）

立即免費試用

Whisper Large v3 Turbo 英语访谈评测 — 2026 年 3 月 28 日基准（WER、CER、RTF）

1. 本基准的意义

2. 测试设置

3. 评估方法论

4. 模型概览

5. 结果（来自 result.json）

6. 错误形态分析

7. 要点

8. 该场景下的「最佳模型」

9. 中性结论

来源材料

相关文章

Whisper Medium 在英语 YouTube 音频上的测试 —— 2026-03-31 基准（WER、CER、RTF）

Whisper Medium 在英语 YouTube 音频上的测试 —— 2026-03-30 基准（WER、CER、RTF）

Whisper Large v3 Turbo 在英语 YouTube 音频上的表现 — 2026年3月29日基准测试（WER、CER、RTF）

立即免費試用

5. 结果（来自 `result.json`）