英語の YouTube 音声における Whisper Large v3 Turbo — 2026年3月29日ベンチマーク(WER、CER、RTF)

英語の YouTube 音声における Whisper Large v3 Turbo — 2026年3月29日ベンチマーク(WER、CER、RTF)

2026-03-29Test
Eric King

Eric King

Author


本稿は、YouTube アップロードから取ったおおよそ 18 分英語音声に対する、固定設定の 1 回の実行をまとめたものです。スコアラは WER ≈ 67.6% と報告し、削除が支配的です(6 44960 の置換、0 の挿入)。この形は、仮説書き起こしが参照に対してカバレッジが合っていないことを示唆します。参照がプラットフォームの字幕トラックで、ASR 出力が別のセグメント化や長さを反映しているときによく見られます。したがって数値は単体の洗練された「精度スコア」ではなく、診断用として読むべきです。
動画と参照テキスト。 参照 WebVTT(ref.vttは、ソース動画に付属するキャプション文言(WebVTT としてエクスポート)です。仮説(model.vttは同一の下層音声に対する Whisper large-v3-turbo の出力です。指標はその字幕今回の ASR 実行を比較します。これは「当社パイプラインが YouTube が配信する字幕にどれだけ近いか」という実務上のベースラインであり、人間検証済みの正解テキストについての主張ではありません。

1. このベンチマークが重要な理由

YouTube 的な話し方は実運用で至る所にあります。マイク品質のばらつき、音楽ベッド、カット、長い独白や対話などです。実際のプラットフォーム字幕を参照として ASR を評価すると、次のような具体的な問いに答えられます。同じ音声に自前の Whisper ベースのスタックを流したとき、テキストは視聴者が既に字幕として見ている内容からどれだけずれるか? 字幕 QA、コンテンツ再利用、検索インデックスなど、「十分かどうか」はプロダクト次第でも、数値は再現可能であるべき領域で有用です。

2. テスト構成

以下の値は、このケースの other.yamlresult.json から取得しています(ディレクトリモードで YAML メタデータがスコアラ出力に付与されます)。
FieldValue
SourceYouTube video (audio aligned to that upload)
Date (processing window)2026-03-29 (processtime-atcompleted-at in other.yaml)
LanguageEnglish
Whisper modellarge-v3-turbo
Audio duration (YAML label)17:39
Audio duration (scorer, from VTT)1059.88 s (≈ 17.7 minutes)
STT processing time175 s (sttProcessingTimeSeconds in result.json, from YAML timestamps)
RTF0.165 (from result.json)
YAML のウォールクロック区間: 2026-03-29 16:04:372026-03-29 16:07:32(処理時間 175 秒と整合)。

3. 評価方法

参照と仮説は WebVTT ファイルです。キューからテキストを取り出し、スコアリング前に正規化(大文字小文字、句読点、軽いクリーンアップ)します。
単語レベルのアラインメント
トークン列を Levenshtein 系の動的計画法で整合し、バックトラックで参照長 N に対する置換(S)削除(D)、**挿入(I)**を得ます。
[ \mathrm{WER} = \frac{S + D + I}{N}, \qquad \mathrm{Accuracy} = 1 - \mathrm{WER}. ]
Character Error Rate(CER)
空白を除去し、文字編集距離は文字レベルの Levenshtein 距離です。
[ \mathrm{CER} = \frac{\text{Character edit distance}}{\text{Reference character count (no spaces)}}. ]
Real-Time Factor(RTF)
[ \mathrm{RTF} = \frac{\text{STT processing time}}{\text{Audio duration}}. ]
RTF が 1 未満なら、本実行ではリアルタイムより速くデコードできたことを意味します。

4. モデル概要

Whisper large-v3-turbo は、より重い「large」系に比べスループットを改善しつつ高品質を狙うモデルです(挙動は実装とハードウェアに依存)。汎用の多言語 ASR で、逐語の完璧さを前提としない下書き書き起こし検索字幕ドラフトに向きます。本ベンチマークは other.yaml に記録された一種類のデコード設定のみを使い、デコードオプション、VAD、後処理のスイープは行いません。

5. 結果(result.json より)

厳密な指標:
  • 参照語数(N): 9627
  • 置換(S): 60
  • 削除(D): 6449
  • 挿入(I): 0
  • WER: 0.6761192479484782
  • Accuracy: 0.3238807520515218
  • 参照文字数: 38334
  • 文字編集距離: 25696
  • CER: 0.6703187770647467
  • 音声長(秒): 1059.8809999999999
  • STT 処理時間(秒): 175
  • RTF: 0.16511287587946197
  • 評価スクリプト実行時間(秒): 25.612
読みやすいように丸め
  • WER ≈ 67.6%accuracy ≈ 32.4%
  • CER ≈ 67.0%
  • 参照 約 38.3k 文字に対し 約 25.7k の文字編集
  • RTF ≈ 0.165×(リアルタイムのおおよそ 6 倍速)

6. エラーパターンの分析

挿入はゼロで、削除が置換を圧倒しています(644960)。これは「余計なフィラーが増えたノイズ ASR」という典型像ではなく、このアラインメントの下で仮説が参照の大きな区間にマッチしていないことを示します。長さの不一致異なるセグメント化、または参照が ASR が聞いた内容より広い(例: 字幕ファイル対音声区間)などと整合します。CER ≈ 67% は、差が少数の語の入れ替えではなく広範であることを補強します。
プロダクトチーム向け: 同じ音声ウィンドウ同じ言語、キャプションエクスポートとモデル出力の間の比較可能なテキスト正規化を確認するまで、口語的な意味で「Whisper が語の 68% を聞き違えた」と解釈しないでください。

7. 要点

  • 速度: RTF ≈ 0.17 は長尺クリップのバッチ処理に魅力的です。
  • 精度: 忠実な引用が必要なら、約 68% WER はレビューなしでは公開向きではありません
  • エラー形状: 削除偏重・挿入ゼロ — モデル調整の前にペアリングとカバレッジを監査してください。
  • シナリオの現実味: 実在の YouTube からの英語 約 18 分はおもちゃクリップより代表的ですが、依然として一本の動画と一組のモデル設定です。
  • 参照の選択: プラットフォーム字幕を使うと、テストは視聴者に見えるベースラインに固定されます。人間による書き起こし直しとは異なる場合があります。

8. このシナリオに最適なモデル

「このクリップで large-v3-turbo、参照は YouTube 字幕」という狭い範囲では、本実行は記録されたベースラインです。スループット(RTF)と定量的なずれ(WER/CER)を後続比較のために固定します。すべての英語 YouTube コンテンツにとってこれが最良モデルだという主張ではありません

9. 中立的な結論

社内ドラフト、トピックタグ付け、粗い検索では、ステークホルダーが誤り率を受容し重要箇所を検証するなら、低 RTF でこのスタックは利用しうる水準です。
逐語引用、コンプライアンス、アクセシビリティ上クリティカルな字幕では、語レベル accuracy 約 32%削除偏重のエラーから、人間によるレビューまたはアラインメント修正が依然必須です。入力を変えたらスコアラを再実行してください。方法論は比較可能なままです。

ソース資料

ケースフォルダ名 {case-name} = 20260329(アセット公開時はリポジトリの test-transcripts/ 下にミラー)。
  • 原動画(音声源): https://www.youtube.com/watch?v=E73XCmLAFe8 — 参照字幕は本動画に付属する字幕ref.vtt としてエクスポート)。
  • 参照書き起こし(VTT): test-transcripts/{case-name}/ref.vtt
  • モデル書き起こし(VTT): test-transcripts/{case-name}/model.vtt
  • 実行メタデータ: test-transcripts/{case-name}/other.yaml
  • 事前計算済み評価指標: test-transcripts/{case-name}/result.json
スコアリングには本リポジトリの scripts/evaluate-vtt-metrics.js を使います。長い書き起こしでは必要に応じて ヒープ上限を上げた Node で実行してください(例: NODE_OPTIONS=--max-old-space-size=8192)。

今すぐ無料で試す

当社のAI音声・オーディオ/ビデオサービスを今すぐお試しください。高精度な音声文字起こし、多言語翻訳、話者分離に対応するだけでなく、自動動画字幕生成、音声・映像コンテンツのインテリジェント編集、音声と映像を組み合わせた同期解析も実現します。会議記録、ショート動画制作、ポッドキャスト制作など、あらゆるシーンをこれ一つでカバーできます。今すぐ無料トライアルを始めましょう!

音声をオンラインでテキストに音声をテキストに無料音声テキスト変換ツール音声をMP3でテキストに音声をWAVでテキストに音声をテキストに(タイムスタンプ付き)会議向けサウンド→テキストSound to Text Multi Language音声をテキストで字幕にWAVをテキストに変換音声テキスト変換オンライン音声テキスト変換音声テキスト変換MP3をテキストに変換音声録音をテキストに変換オンライン音声入力タイムスタンプ付き音声テキスト変換リアルタイム音声テキスト変換長時間音声テキスト変換動画音声テキスト変換YouTube音声テキスト変換動画編集音声テキスト変換字幕音声テキスト変換ポッドキャスト音声テキスト変換インタビュー音声テキスト変換インタビュー音声をテキストに録音音声テキスト変換会議音声テキスト変換講義音声テキスト変換音声メモテキスト変換多言語音声テキスト変換高精度音声テキスト変換高速音声テキスト変換Premiere Pro音声テキスト変換代替DaVinci音声テキスト変換代替VEED音声テキスト変換代替InVideo音声テキスト変換代替Otter.ai音声テキスト変換代替Descript音声テキスト変換代替Trint音声テキスト変換代替Rev音声テキスト変換代替Sonix音声テキスト変換代替Happy Scribe音声テキスト変換代替Zoom音声テキスト変換代替Google Meet音声テキスト変換代替Microsoft Teams音声テキスト変換代替Fireflies.ai音声テキスト変換代替Fathom音声テキスト変換代替FlexClip音声テキスト変換代替Kapwing音声テキスト変換代替Canva音声テキスト変換代替長時間音声テキスト変換AI音声テキスト変換無料音声テキスト変換広告なし音声テキスト変換ノイズのある音声のテキスト変換時間付き音声テキスト変換音声から字幕を生成ポッドキャスト転写オンライン顧客通話を転写TikTok音声をテキストにTikTok音声をテキストにYouTube音声テキスト変換YouTube音声をテキストに音声メモテキスト変換WhatsApp音声メッセージテキスト変換Telegram音声メッセージテキスト変換Discord通話転写Twitch音声テキスト変換Skype音声テキスト変換Messenger音声テキスト変換LINE音声メッセージテキスト変換Vlog転写テキスト変換説教オーディオテキスト変換音声テキスト変換オーディオテキスト変換音声ノートテキスト変換音声入力会議音声入力YouTube音声入力話して入力ハンズフリー入力音声を文字に音声を単語にオンライン音声テキスト変換Online Transcription Software会議音声テキスト変換高速音声テキスト変換Real Time Speech to TextLive Transcription AppTikTok音声テキスト変換TikTok音声テキスト変換話した言葉を文字に音声をテキストにTalk to Text FreeTalk to Text OnlineTalk to Text for YouTubeTalk to Text for SubtitlesTalk to Text for Content CreatorsTalk to Text for Meetings音声をタイピングに音声をテキストに音声書き込みツール音声書き込みツール音声入力法的転写ツール医療音声入力ツール日本語音声転写韓国語会議転写会議転写ツール会議音声をテキストに講義テキスト変換ツール講義音声をテキストに動画テキスト転写TikTok字幕ジェネレーターコールセンター転写Reels音声テキスト変換ツールMP3をテキストに転写WAVファイルをテキストに転写CapCut音声テキスト変換CapCut音声テキスト変換Voice to Text in English英語音声をテキストにVoice to Text in SpanishVoice to Text in Frenchフランス語音声をテキストにVoice to Text in Germanドイツ語音声をテキストにVoice to Text in Japanese日本語音声をテキストにVoice to Text in Korean韓国語音声をテキストにVoice to Text in PortugueseVoice to Text in ArabicVoice to Text in ChineseVoice to Text in HindiVoice to Text in RussianWeb Voice Typing ToolVoice Typing Website