🎉我们网站近期上线,正在试运营阶段!现在完全免费使用,收费时间待定。

我测试了 AI 英文访谈转写——2026 年 2 月 26 日结果(Whisper BASE,约 11 分钟音频)

我测试了 AI 英文访谈转写——2026 年 2 月 26 日结果(Whisper BASE,约 11 分钟音频)

2026-02-26Test
Eric King

Eric King

Author


1. 为什么这次访谈基准测试有意义

在真实访谈里,转写的准确率不是一个“可有可无”的指标,而是直接决定你能不能放心引用嘉宾原话、是否能可靠地搜索关键话题、以及能否在不歪曲语义的前提下做后续分析。一个形容词被漏掉、一个数字听错、一个人名被“听成”别的词,都可能改变整个回答的含义。
在这次基准中,我选取了一段英语 “Bill 访谈” 片段,用 Whisper 系列的转写链路跑了一遍,并用标准 ASR 指标进行评估。目标不是做营销,而是给出一份具体、可复现的快照,让人看到系统在一段中等长度的真实访谈上的实际表现。
这段访谈音频来自一条 YouTube 视频,你可以在这里找到原始上下文:
YouTube 源视频链接

来源数据(Source Materials)

本次基准测试所用的全部输入都在仓库或静态资源中,可以直接查看:
上述文件是本文中所有数字和结论的唯一来源。

本次运行的截图

SayToWords 转写看板——指标总览
SayToWords 转写看板——转写内容视图

2. 测试设置(Testing Setup)

本次实验使用的配置如下(所有数值均来自预先计算好的元数据和 result.json):
  • 测试日期:2026‑02‑26(由处理时间戳推导)
  • 场景:英文访谈(test-transcripts/bill-interview
  • 语言:英语
  • 音频时长
    • audioDurationSeconds = 653.2934375
    • 10.89 分钟 的语音
  • 处理耗时
    • sttProcessingTimeSeconds = 85.476
    • 1.42 分钟 的端到端解码时间
  • 模型与模式
    • whisper-modelBASE
    • saytowords-modebase
录音环境、麦克风类型、语速密度等信息在元数据中没有明确标注,因此我选择不做主观猜测,也不会写入报告。所有对齐与打分工作都在生成本文之前完成,下面看到的数字直接读取自 test-transcripts/bill-interview/result.json

3. 评估方法(Evaluation Methodology)

人工参考转写(ref.vtt)和模型输出(model.vtt)都以 WebVTT 格式存储。评估流程首先从这些文件中提取纯文本,然后对参考与假设转写进行对齐,最后计算各种错误指标。
词错误率(Word Error Rate, WER)
在按词切分成序列后,我们统计:
  • (S):替换(substitutions)
  • (D):删除(deletions)
  • (I):插入(insertions)
  • (N):参考转写中的总词数
词错误率的定义为:
[ \text{WER} = \frac{S + D + I}{N} ]
基于 WER,可以得到词级别的准确率(Accuracy)
[ \text{Accuracy} = 1 - \text{WER} ]
字符错误率(Character Error Rate, CER)
在字符层面,我们先去掉空白符,然后计算 Levenshtein 编辑距离:
  • 字符编辑距离:插入、删除、替换的总次数
  • 总字符数:参考转写中(去掉空格后的)字符数量
[ \text{CER} = \frac{\text{Character edit distance}}{\text{Total characters}} ]
实时因子(Real‑Time Factor, RTF)
吞吐量用实时因子来度量:
[ \text{RTF} = \frac{\text{Processing Time}}{\text{Audio Duration}} ]
这里,Processing Time 来自 other.yamlprocesstime-atcompleted-at 的时间差;Audio Duration 则来自同一文件中的 audio-duration
实现细节说明
  • 所有指标都建立在参考转写与假设转写的对齐之上。
  • 词级与字符级的编辑距离都使用了高性能的 Levenshtein 实现
  • 对齐引擎运行在 C++ 优化的后端 上。
  • 时间复杂度在序列长度为 (n) 和 (m) 时大约是 O(nm)
  • result.json 中的所有数值都是确定且可复现的:只要输入不变,打分结果就不会变化。

4. 模型概览(Model Overview)

本次基准测试只评估了一个模型配置:
  • Whisper BASE(saytowords-mode: base)
    一个通用型语音转文字模型,容量中等,目标覆盖多口音英语和长音频。在这次基准中,它以原始配置直接使用(不做微调,也不做人工修订),目的是观察其在真实访谈场景下的“原生表现”。
未来可以在这个基线之上加入更小或更大的 Whisper 版本,以及非 Whisper 系统,但这篇文章聚焦于刻画这一条单一基线。

5. 结果概览(来自 result.json)

以下数值全部直接取自 test-transcripts/bill-interview/result.json
  • 音频时长(秒)653.2934375
  • 处理时间(秒)85.476
  • 参考词数(N)1846
  • 替换(S)67
  • 删除(D)178
  • 插入(I)23
  • WER0.14517876489707476
  • Accuracy0.8548212351029252
  • 参考字符数7335
  • 字符编辑距离825
  • CER0.11247443762781185
  • RTF0.13083860191079907
为了更便于阅读,可以近似为:
  • WER ≈ 14.52%
  • Accuracy ≈ 85.48%
  • CER ≈ 11.25%
  • RTF ≈ 0.13,也就是推理速度约为实时的 7.6 倍

6. 错误模式分析(Error Pattern Analysis)

这次评估没有额外提供按时间片段划分的标注或可视化,因此下面的分析完全基于整体计数。
  • 主导错误类型:删除(deletions)
    • 删除:D = 178
    • 替换:S = 67
    • 插入:I = 23
      可以看到,删除占了大多数词级错误。这表明模型更多是漏掉了一些词,而不是凭空“听出”不存在的内容。在访谈场景下,这往往对应:功能词被吃掉、语速快时尾巴几个词被截断,或者在多人重叠说话时,模型用“抹掉部分内容”的方式来解决冲突。
  • 替换存在,但不是主角
    S = 67 时,替换大约占所有错误的四分之一。典型情况包括:相似发音的词混淆、人名听错、或者模型没见过太多的专业术语。
  • 插入相对较少
    只观察到 I = 23 次插入。这和一个不太爱“幻觉”内容的模型特性基本一致:它更倾向于少说(漏掉),而不是多说(编造)。
在字符层面:
  • 字符编辑距离 = 825,除以 7335 个字符,得到 CER ≈ 11.25%
    和 ~14.5% 的 WER 相比,这个更低的 CER 说明,很多“错词”在字符层面其实有相当一部分重叠——比如词形变化、小的拼写差异、或者拆并的复合词,而不是完全无关的串。
在没有时间戳级别错误标记的前提下,我们无法指出“第几分钟的哪个回答出了问题”。不过,仅通过 S/D/I 的分布,其实已经能勾勒出一个清晰轮廓:这套系统更倾向于欠转写(under-transcribe),而不是凭空造句。

7. 关键结论(Key Insights)

只从数字出发,可以得到几条相对清晰的结论:
  1. 在访谈场景下,速度与精度的平衡还不错
    RTF ≈ 0.13 的前提下,系统用约 1.4 分钟 处理完 10.9 分钟 的音频,同时保持 WER ≈ 14.5%CER ≈ 11.3%。对于批量处理大量访谈,这是一个可操作的工作点。
  2. 错误类型明显偏向删除
    删除(178)远多于替换(67)和插入(23)。在实际使用中,这意味着你更可能丢掉一小段内容,而不是看到模型凭空编出整句。
  3. 字符层面比词层面更稳定
    CER 低于 WER,说明许多“不正确”的词在字符上仍然和参考非常接近。对于搜索、主题聚类等能容忍一定词形变化的任务,这是一个利好信号。
  4. 评估样本并不“玩具化”
    1846 个参考词7335 个字符,更接近一段真正的访谈,而不是几句示例。指标更多地反映了模型在持续几分钟自发口语下的整体行为。

8. 本场景下的“最佳模型”(Best Model for This Scenario)

在这次基准中,只测试了 Whisper BASE(base 模式),因此它同时是:
  • 这张“榜单”上表现最强的模型,也是
  • 唯一一个被报告的模型。
在这样的约束下,它交出的答卷可以概括为:
  • 在约 11 分钟访谈音频上,WER ≈ 14.5%,Accuracy ≈ 85.5%
  • RTF ≈ 0.13,也就是解码速度约为实时的 7–8 倍
对于那些需要快速得到“基本靠谱”访谈转写的工作流(例如浏览内容、全文搜索、抓大意引用),这个配置从数字上看是可以接受的。而对于每个字都要绝对正确的场景,这些指标也很诚实地告诉你:仍然需要人工审核,或使用更强的模型。

9. 中立结论(Neutral Final Verdict)

在这段 2026 年 2 月 26 日的英文访谈上,处于 “base” 模式的 Whisper BASE 呈现出:
  • 删除占主导、插入极少 的错误结构;
  • 建立在非玩具级参考转写上的,十几个百分点的 WER低十几个百分点的 CER
  • 0.13 的实时因子,适合大规模批处理。
整体行为在数值上稳定、可复现,也足够快,适合作为日常基准测试的基础设施。对一个第三方评估者而言,总结可以是:这套配置是一个可行的英文访谈转写基线,但距离在高敏感场景里“完全取代人工”还有一定距离。

参考工件(Reference Artifacts)

下面预留了参考与模型转写的折叠视图结构,方便日后直接嵌入完整 VTT 内容进行对比。
ref.vtt(参考转写)
<!-- 在这里粘贴 test-transcripts/bill-interview/ref.vtt 的完整内容 -->
model.vtt(模型转写)
<!-- 在这里粘贴 test-transcripts/bill-interview/model.vtt 的完整内容 -->

立即免費試用

現在就體驗我們的 AI 語音與音視頻服務!不僅可以享受高精度語音轉文字、多語言翻譯與智能說話人識別,還能自動生成視頻字幕、智能編輯音視頻內容並進行聲畫同步分析,全面覆蓋會議記錄、短視頻創作、播客製作等場景——立即開始免費試用吧!

转换MP3为文字语音录音转文字在线语音输入带时间戳的语音转文字实时语音转文字长音频语音转文字视频语音转文字YouTube语音转文字视频编辑语音转文字字幕语音转文字播客语音转文字采访语音转文字访谈音频转文字录音语音转文字会议语音转文字讲座语音转文字语音笔记转文字多语言语音转文字高准确度语音转文字快速语音转文字Premiere Pro 语音转文字替代方案DaVinci 语音转文字替代方案VEED 语音转文字替代方案InVideo 语音转文字替代方案Otter.ai 语音转文字替代方案Descript 语音转文字替代方案Trint 语音转文字替代方案Rev 语音转文字替代方案Sonix 语音转文字替代方案Happy Scribe 语音转文字替代方案Zoom 语音转文字替代方案Google Meet 语音转文字替代方案Microsoft Teams 语音转文字替代方案Fireflies.ai 语音转文字替代方案Fathom 语音转文字替代方案FlexClip 语音转文字替代方案Kapwing 语音转文字替代方案Canva 语音转文字替代方案长音频语音转文字AI语音转文字免费语音转文字无广告语音转文字噪音音频语音转文字带时间戳的语音转文字从音频生成字幕播客转录在线转录客户通话TikTok语音转文字TikTok音频转文字YouTube语音转文字YouTube音频转文字语音备忘录转文字WhatsApp语音消息转文字Telegram语音转文字Discord通话转录Twitch语音转文字Skype语音转文字Messenger语音转文字LINE语音消息转文字Vlog转录转文字讲道音频转文字语音转文字音频转文字语音笔记转文字语音输入会议语音输入YouTube语音输入说话打字免提打字语音转文字语音转文字在线语音转文字Online Transcription Software会议语音转文字快速语音转文字Real Time Speech to TextLive Transcription AppTikTok语音转文字TikTok音频转文字说话转文字语音转文字Talk to Text FreeTalk to Text OnlineTalk to Text for YouTubeTalk to Text for SubtitlesTalk to Text for Content CreatorsTalk to Text for Meetings音频转文字声音转文字语音写作工具语音写作工具语音听写法律转录工具医疗语音听写工具日语音频转录韩语会议转录会议转录工具会议音频转文字讲座转文字转换器讲座音频转文字视频转文字转录TikTok字幕生成器呼叫中心转录Reels音频转文字工具MP3转录为文字WAV文件转录为文字CapCut语音转文字CapCut语音转文字英语语音转文字英语音频转文字西班牙语语音转文字法语语音转文字法语音频转文字德语语音转文字德语音频转文字日语语音转文字日语音频转文字韩语语音转文字韩语音频转文字葡萄牙语语音转文字阿拉伯语语音转文字中文语音转文字印地语语音转文字俄语语音转文字网页语音输入工具语音输入网站