我测试了 AI 英文访谈转写——2026 年 2 月 26 日结果（Whisper BASE，约 11 分钟音频）

2026-02-26Test

Eric King

Author

1. 为什么这次访谈基准测试有意义

在真实访谈里，转写的准确率不是一个“可有可无”的指标，而是直接决定你能不能放心引用嘉宾原话、是否能可靠地搜索关键话题、以及能否在不歪曲语义的前提下做后续分析。一个形容词被漏掉、一个数字听错、一个人名被“听成”别的词，都可能改变整个回答的含义。

在这次基准中，我选取了一段英语 “Bill 访谈” 片段，用 Whisper 系列的转写链路跑了一遍，并用标准 ASR 指标进行评估。目标不是做营销，而是给出一份具体、可复现的快照，让人看到系统在一段中等长度的真实访谈上的实际表现。

这段访谈音频来自一条 YouTube 视频，你可以在这里找到原始上下文：
YouTube 源视频链接。

来源数据（Source Materials）

本次基准测试所用的全部输入都在仓库或静态资源中，可以直接查看：

原始音频：音频文件
人工参考转写（VTT）： Base text
模型转写结果（VTT）： Result text

上述文件是本文中所有数字和结论的唯一来源。

本次运行的截图

2. 测试设置（Testing Setup）

本次实验使用的配置如下（所有数值均来自预先计算好的元数据和 result.json）：

测试日期：2026‑02‑26（由处理时间戳推导）
场景：英文访谈（test-transcripts/bill-interview）
语言：英语
音频时长：
- audioDurationSeconds = 653.2934375
- 约 10.89 分钟 的语音
处理耗时：
- sttProcessingTimeSeconds = 85.476
- 约 1.42 分钟 的端到端解码时间
模型与模式：
- whisper-model：BASE
- saytowords-mode：base

录音环境、麦克风类型、语速密度等信息在元数据中没有明确标注，因此我选择不做主观猜测，也不会写入报告。所有对齐与打分工作都在生成本文之前完成，下面看到的数字直接读取自 test-transcripts/bill-interview/result.json。

3. 评估方法（Evaluation Methodology）

人工参考转写（ref.vtt）和模型输出（model.vtt）都以 WebVTT 格式存储。评估流程首先从这些文件中提取纯文本，然后对参考与假设转写进行对齐，最后计算各种错误指标。

词错误率（Word Error Rate, WER）

在按词切分成序列后，我们统计：

(S)：替换（substitutions）
(D)：删除（deletions）
(I)：插入（insertions）
(N)：参考转写中的总词数

词错误率的定义为：

[ \text{WER} = \frac{S + D + I}{N} ]

基于 WER，可以得到词级别的准确率（Accuracy）：

[ \text{Accuracy} = 1 - \text{WER} ]

字符错误率（Character Error Rate, CER）

在字符层面，我们先去掉空白符，然后计算 Levenshtein 编辑距离：

字符编辑距离：插入、删除、替换的总次数
总字符数：参考转写中（去掉空格后的）字符数量

[ \text{CER} = \frac{\text{Character edit distance}}{\text{Total characters}} ]

实时因子（Real‑Time Factor, RTF）

吞吐量用实时因子来度量：

[ \text{RTF} = \frac{\text{Processing Time}}{\text{Audio Duration}} ]

这里，Processing Time 来自 other.yaml 中 processtime-at 与 completed-at 的时间差；Audio Duration 则来自同一文件中的 audio-duration。

实现细节说明

所有指标都建立在参考转写与假设转写的对齐之上。
词级与字符级的编辑距离都使用了高性能的 Levenshtein 实现。
对齐引擎运行在 C++ 优化的后端 上。
时间复杂度在序列长度为 (n) 和 (m) 时大约是 O(nm)。
result.json 中的所有数值都是确定且可复现的：只要输入不变，打分结果就不会变化。

4. 模型概览（Model Overview）

本次基准测试只评估了一个模型配置：

Whisper BASE（saytowords-mode: base）
一个通用型语音转文字模型，容量中等，目标覆盖多口音英语和长音频。在这次基准中，它以原始配置直接使用（不做微调，也不做人工修订），目的是观察其在真实访谈场景下的“原生表现”。

未来可以在这个基线之上加入更小或更大的 Whisper 版本，以及非 Whisper 系统，但这篇文章聚焦于刻画这一条单一基线。

5. 结果概览（来自 result.json）

以下数值全部直接取自 test-transcripts/bill-interview/result.json：

音频时长（秒）：653.2934375
处理时间（秒）：85.476
参考词数（N）：1846
替换（S）：67
删除（D）：178
插入（I）：23
WER：0.14517876489707476
Accuracy：0.8548212351029252
参考字符数：7335
字符编辑距离：825
CER：0.11247443762781185
RTF：0.13083860191079907

为了更便于阅读，可以近似为：

WER ≈ 14.52%
Accuracy ≈ 85.48%
CER ≈ 11.25%
RTF ≈ 0.13，也就是推理速度约为实时的 7.6 倍。

6. 错误模式分析（Error Pattern Analysis）

这次评估没有额外提供按时间片段划分的标注或可视化，因此下面的分析完全基于整体计数。

主导错误类型：删除（deletions）
- 删除：D = 178
- 替换：S = 67
- 插入：I = 23
  可以看到，删除占了大多数词级错误。这表明模型更多是漏掉了一些词，而不是凭空“听出”不存在的内容。在访谈场景下，这往往对应：功能词被吃掉、语速快时尾巴几个词被截断，或者在多人重叠说话时，模型用“抹掉部分内容”的方式来解决冲突。
替换存在，但不是主角
当 S = 67 时，替换大约占所有错误的四分之一。典型情况包括：相似发音的词混淆、人名听错、或者模型没见过太多的专业术语。
插入相对较少
只观察到 I = 23 次插入。这和一个不太爱“幻觉”内容的模型特性基本一致：它更倾向于少说（漏掉），而不是多说（编造）。

在字符层面：

字符编辑距离 = 825，除以 7335 个字符，得到 CER ≈ 11.25%。
和 ~14.5% 的 WER 相比，这个更低的 CER 说明，很多“错词”在字符层面其实有相当一部分重叠——比如词形变化、小的拼写差异、或者拆并的复合词，而不是完全无关的串。

在没有时间戳级别错误标记的前提下，我们无法指出“第几分钟的哪个回答出了问题”。不过，仅通过 S/D/I 的分布，其实已经能勾勒出一个清晰轮廓：这套系统更倾向于欠转写（under-transcribe），而不是凭空造句。

7. 关键结论（Key Insights）

只从数字出发，可以得到几条相对清晰的结论：

在访谈场景下，速度与精度的平衡还不错
在 RTF ≈ 0.13 的前提下，系统用约 1.4 分钟 处理完 10.9 分钟 的音频，同时保持 WER ≈ 14.5%、CER ≈ 11.3%。对于批量处理大量访谈，这是一个可操作的工作点。
错误类型明显偏向删除
删除（178）远多于替换（67）和插入（23）。在实际使用中，这意味着你更可能丢掉一小段内容，而不是看到模型凭空编出整句。
字符层面比词层面更稳定
CER 低于 WER，说明许多“不正确”的词在字符上仍然和参考非常接近。对于搜索、主题聚类等能容忍一定词形变化的任务，这是一个利好信号。
评估样本并不“玩具化”
1846 个参考词、7335 个字符，更接近一段真正的访谈，而不是几句示例。指标更多地反映了模型在持续几分钟自发口语下的整体行为。

8. 本场景下的“最佳模型”（Best Model for This Scenario）

在这次基准中，只测试了 Whisper BASE（base 模式），因此它同时是：

这张“榜单”上表现最强的模型，也是
唯一一个被报告的模型。

在这样的约束下，它交出的答卷可以概括为：

在约 11 分钟访谈音频上，WER ≈ 14.5%，Accuracy ≈ 85.5%。
RTF ≈ 0.13，也就是解码速度约为实时的 7–8 倍。

对于那些需要快速得到“基本靠谱”访谈转写的工作流（例如浏览内容、全文搜索、抓大意引用），这个配置从数字上看是可以接受的。而对于每个字都要绝对正确的场景，这些指标也很诚实地告诉你：仍然需要人工审核，或使用更强的模型。

9. 中立结论（Neutral Final Verdict）

在这段 2026 年 2 月 26 日的英文访谈上，处于 “base” 模式的 Whisper BASE 呈现出：

删除占主导、插入极少 的错误结构；
建立在非玩具级参考转写上的，十几个百分点的 WER 与低十几个百分点的 CER；
约 0.13 的实时因子，适合大规模批处理。

整体行为在数值上稳定、可复现，也足够快，适合作为日常基准测试的基础设施。对一个第三方评估者而言，总结可以是：这套配置是一个可行的英文访谈转写基线，但距离在高敏感场景里“完全取代人工”还有一定距离。

参考工件（Reference Artifacts）

下面预留了参考与模型转写的折叠视图结构，方便日后直接嵌入完整 VTT 内容进行对比。

ref.vtt（参考转写）

<!-- 在这里粘贴 test-transcripts/bill-interview/ref.vtt 的完整内容 -->

model.vtt（模型转写）

<!-- 在这里粘贴 test-transcripts/bill-interview/model.vtt 的完整内容 -->