
英語の YouTube 音声における Whisper Large v3 Turbo — 2026年3月29日ベンチマーク(WER、CER、RTF)
2026-03-29Test
Eric King
Author
本稿は、YouTube アップロードから取ったおおよそ 18 分の英語音声に対する、固定設定の 1 回の実行をまとめたものです。スコアラは WER ≈ 67.6% と報告し、削除が支配的です(6 449 対 60 の置換、0 の挿入)。この形は、仮説書き起こしが参照に対してカバレッジが合っていないことを示唆します。参照がプラットフォームの字幕トラックで、ASR 出力が別のセグメント化や長さを反映しているときによく見られます。したがって数値は単体の洗練された「精度スコア」ではなく、診断用として読むべきです。
動画と参照テキスト。 参照 WebVTT(
ref.vtt)は、ソース動画に付属するキャプション文言(WebVTT としてエクスポート)です。仮説(model.vtt)は同一の下層音声に対する Whisper large-v3-turbo の出力です。指標はその字幕と今回の ASR 実行を比較します。これは「当社パイプラインが YouTube が配信する字幕にどれだけ近いか」という実務上のベースラインであり、人間検証済みの正解テキストについての主張ではありません。1. このベンチマークが重要な理由
YouTube 的な話し方は実運用で至る所にあります。マイク品質のばらつき、音楽ベッド、カット、長い独白や対話などです。実際のプラットフォーム字幕を参照として ASR を評価すると、次のような具体的な問いに答えられます。同じ音声に自前の Whisper ベースのスタックを流したとき、テキストは視聴者が既に字幕として見ている内容からどれだけずれるか? 字幕 QA、コンテンツ再利用、検索インデックスなど、「十分かどうか」はプロダクト次第でも、数値は再現可能であるべき領域で有用です。
2. テスト構成
以下の値は、このケースの
other.yaml と result.json から取得しています(ディレクトリモードで YAML メタデータがスコアラ出力に付与されます)。| Field | Value |
|---|---|
| Source | YouTube video (audio aligned to that upload) |
| Date (processing window) | 2026-03-29 (processtime-at → completed-at in other.yaml) |
| Language | English |
| Whisper model | large-v3-turbo |
| Audio duration (YAML label) | 17:39 |
| Audio duration (scorer, from VTT) | 1059.88 s (≈ 17.7 minutes) |
| STT processing time | 175 s (sttProcessingTimeSeconds in result.json, from YAML timestamps) |
| RTF | 0.165 (from result.json) |
YAML のウォールクロック区間: 2026-03-29 16:04:37 → 2026-03-29 16:07:32(処理時間 175 秒と整合)。
3. 評価方法
参照と仮説は WebVTT ファイルです。キューからテキストを取り出し、スコアリング前に正規化(大文字小文字、句読点、軽いクリーンアップ)します。
単語レベルのアラインメント
トークン列を Levenshtein 系の動的計画法で整合し、バックトラックで参照長 N に対する置換(S)、削除(D)、**挿入(I)**を得ます。
[
\mathrm{WER} = \frac{S + D + I}{N}, \qquad \mathrm{Accuracy} = 1 - \mathrm{WER}.
]
Character Error Rate(CER)
空白を除去し、文字編集距離は文字レベルの Levenshtein 距離です。
[
\mathrm{CER} = \frac{\text{Character edit distance}}{\text{Reference character count (no spaces)}}.
]
Real-Time Factor(RTF)
[
\mathrm{RTF} = \frac{\text{STT processing time}}{\text{Audio duration}}.
]
RTF が 1 未満なら、本実行ではリアルタイムより速くデコードできたことを意味します。
4. モデル概要
Whisper large-v3-turbo は、より重い「large」系に比べスループットを改善しつつ高品質を狙うモデルです(挙動は実装とハードウェアに依存)。汎用の多言語 ASR で、逐語の完璧さを前提としない下書き書き起こし、検索、字幕ドラフトに向きます。本ベンチマークは
other.yaml に記録された一種類のデコード設定のみを使い、デコードオプション、VAD、後処理のスイープは行いません。5. 結果(result.json より)
厳密な指標:
- 参照語数(N): 9627
- 置換(S): 60
- 削除(D): 6449
- 挿入(I): 0
- WER: 0.6761192479484782
- Accuracy: 0.3238807520515218
- 参照文字数: 38334
- 文字編集距離: 25696
- CER: 0.6703187770647467
- 音声長(秒): 1059.8809999999999
- STT 処理時間(秒): 175
- RTF: 0.16511287587946197
- 評価スクリプト実行時間(秒): 25.612
読みやすいように丸め
- WER ≈ 67.6%、accuracy ≈ 32.4%
- CER ≈ 67.0%
- 参照 約 38.3k 文字に対し 約 25.7k の文字編集
- RTF ≈ 0.165×(リアルタイムのおおよそ 6 倍速)
6. エラーパターンの分析
挿入はゼロで、削除が置換を圧倒しています(6449 対 60)。これは「余計なフィラーが増えたノイズ ASR」という典型像ではなく、このアラインメントの下で仮説が参照の大きな区間にマッチしていないことを示します。長さの不一致、異なるセグメント化、または参照が ASR が聞いた内容より広い(例: 字幕ファイル対音声区間)などと整合します。CER ≈ 67% は、差が少数の語の入れ替えではなく広範であることを補強します。
プロダクトチーム向け: 同じ音声ウィンドウ、同じ言語、キャプションエクスポートとモデル出力の間の比較可能なテキスト正規化を確認するまで、口語的な意味で「Whisper が語の 68% を聞き違えた」と解釈しないでください。
7. 要点
- 速度: RTF ≈ 0.17 は長尺クリップのバッチ処理に魅力的です。
- 精度: 忠実な引用が必要なら、約 68% WER はレビューなしでは公開向きではありません。
- エラー形状: 削除偏重・挿入ゼロ — モデル調整の前にペアリングとカバレッジを監査してください。
- シナリオの現実味: 実在の YouTube からの英語 約 18 分はおもちゃクリップより代表的ですが、依然として一本の動画と一組のモデル設定です。
- 参照の選択: プラットフォーム字幕を使うと、テストは視聴者に見えるベースラインに固定されます。人間による書き起こし直しとは異なる場合があります。
8. このシナリオに最適なモデル
「このクリップで large-v3-turbo、参照は YouTube 字幕」という狭い範囲では、本実行は記録されたベースラインです。スループット(RTF)と定量的なずれ(WER/CER)を後続比較のために固定します。すべての英語 YouTube コンテンツにとってこれが最良モデルだという主張ではありません。
9. 中立的な結論
社内ドラフト、トピックタグ付け、粗い検索では、ステークホルダーが誤り率を受容し重要箇所を検証するなら、低 RTF でこのスタックは利用しうる水準です。
逐語引用、コンプライアンス、アクセシビリティ上クリティカルな字幕では、語レベル accuracy 約 32% と削除偏重のエラーから、人間によるレビューまたはアラインメント修正が依然必須です。入力を変えたらスコアラを再実行してください。方法論は比較可能なままです。
ソース資料
ケースフォルダ名
{case-name} = 20260329(アセット公開時はリポジトリの test-transcripts/ 下にミラー)。- 原動画(音声源): https://www.youtube.com/watch?v=E73XCmLAFe8 — 参照字幕は本動画に付属する字幕(
ref.vttとしてエクスポート)。 - 参照書き起こし(VTT):
test-transcripts/{case-name}/ref.vtt - モデル書き起こし(VTT):
test-transcripts/{case-name}/model.vtt - 実行メタデータ:
test-transcripts/{case-name}/other.yaml - 事前計算済み評価指標:
test-transcripts/{case-name}/result.json
スコアリングには本リポジトリの
scripts/evaluate-vtt-metrics.js を使います。長い書き起こしでは必要に応じて ヒープ上限を上げた Node で実行してください(例: NODE_OPTIONS=--max-old-space-size=8192)。