英語インタビューにおける Whisper Large v3 Turbo — 2026年3月28日ベンチマーク(WER、CER、RTF)

英語インタビューにおける Whisper Large v3 Turbo — 2026年3月28日ベンチマーク(WER、CER、RTF)

2026-03-28Test
Eric King

Eric King

Author


本稿は、英語のインタビュー調音声(約 8.5 分)に対する単一・固定設定の 1 回の実行を記録する。スコアラは語誤り率が約 69%と報告し、誤りの大半は削除2192 削除対 188 置換、0 挿入)である。これは通常、仮説テキストが参照よりはるかに短く、典型的な「ノイズはあるが一通り揃った」転写よりカバーが不足していることを意味する。したがって数値は診断的に読み、モデル出力と参照が同一録音・同一セグメンテーションかを人手で確認することが前提となる。
動画と参照テキスト。 評価対象の音声は 1 本のソース動画(下記リンク)由来である。参照 WebVTT(ref.vtt)はその動画に付属する字幕トラックをプラットフォームから WebVTT として書き出したものであり、独立に作成した「ゴールド」転写ではない。仮説(model.vttは同一音声に対する Whisper large-v3-turbo の ASR 出力である。メトリクスはプラットフォーム提供字幕本 ASR 実行を比較しており、人手で整備した研究用転写との比較とは別物である。

1. 本ベンチマークの意義

インタビュー音声は、話し重なり、テンポのばらつき、固有名、数値など ASR に負荷がかかる条件を含む。モデル ID、言語、長さ、タイムスタンプ、標準メトリクスを公開することで、再実行や他パイプラインと比較可能な記録となる。目的は透明性であり、製品性能の断言ではない。

2. テスト構成

特記なき限り、以下の値は本ケースの other.yaml および result.json から取得する。
項目
日付(処理ウィンドウ)2026-03-28(other.yamlprocesstime-at / completed-at 参照)
シナリオ英語インタビュー調コンテンツ(言語タグ: English
Whisper モデルlarge-v3-turboother.yamlwhisper-model
音声長(YAML)08:25(8 分 25 秒のウォールクロック表記)
音声長(スコアラ)506.88 秒(result.json の参照 VTT のキュー範囲から)
ウォールクロック処理区間processtime-at: 2026-03-28 09:56:40.204completed-at: 2026-03-28 09:57:57.000
導出 STT 処理時間76.8 秒(上記 2 タイムスタンプの差。本実行は明示的 2 ファイル VTT モードでスコアラ出力に YAML が付かなかったため result.json には保存されない)
導出 RTF0.151(処理時間 ÷ 音声長 506.88 秒)
注: 本明示 2 ファイル実行では result.json"yamlMeta": null とあり、RTF も null。本文の処理時間と RTF は方法論セクションとの整合のため other.yaml から再計算した。

3. 評価方法論

参照と仮説は WebVTT ファイルである。キューからプレーンテキストを抽出(タイムスタンプとインデックスを除去)し、スコアリング前に正規化(大文字小文字、句読点、簡易タイポグラフィ)する。
語レベルアライメント
参照と仮説をトークン列として整列する。標準的なレーベンシュタイン型動的計画法で 2 語列間の最小コスト経路を求め、バックトラックで参照長 N に対する置換(S)削除(D)、**挿入(I)**の件数を得る。
WER精度
(S)、(D)、(I) を置換・削除・挿入の件数、(N) を参照語数とする。
[ \mathrm{WER} = \frac{S + D + I}{N}, \qquad \mathrm{Accuracy} = 1 - \mathrm{WER}. ]
CER
正規化文字列から空白を除去する。文字編集距離は文字レベルのレーベンシュタイン距離であり、参照文字数は空白を除いた参照文字列の長さである。
[ \mathrm{CER} = \frac{\text{Character edit distance}}{\text{Reference character count}}. ]
RTF
[ \mathrm{RTF} = \frac{\text{Processing time (seconds)}}{\text{Audio duration (seconds)}}. ]
RTF が 1 未満なら、本ハードウェア/本実行では実時間より高速にデコードできたことを意味する。

4. モデル概要

Whisper large-v3-turbo は「large」系で、フルの large チェックポイントと比べ計算とスループットのトレードオフを取る(挙動は実装とハードに依存)。完全な忠実度を前提としない下書きや検索インデックス向けの汎用多言語 ASR である。本テストは other.yaml単一設定のみであり、温度・チャンク・VAD のスイープは行っていない。

5. 結果(result.json より)

事前計算済みメトリクスオブジェクトの厳密値:
  • 参照語数(N): 3442
  • 置換(S): 188
  • 削除(D): 2192
  • 挿入(I): 0
  • WER: 0.6914584543869843
  • 精度: 0.3085415456130157
  • 参照文字数: 15790
  • 文字編集距離: 10494
  • CER: 0.664597846738442
  • 音声長(秒): 506.88
  • JSON 内 STT 処理時間: null(YAML 由来の値はセクション 2)
  • JSON 内 RTF: null(YAML タイムスタンプから導出 RTF ≈ 0.151
  • 評価スクリプト実行時間: 3.11 秒
読みやすい丸め
  • WER ≈ 69.1%精度 ≈ 30.9%
  • CER ≈ 66.5%
  • 参照約 15.8k 文字に対し文字編集約 10.5k
  • RTF ≈ 0.15×(YAML 由来処理時間で本クリップは実時間より高速)

6. 誤りパターン分析

I = 0 のため、このアライメント上で仮説は余分な語を追加していない。語レベル誤りの大半は削除と置換であり、削除は置換の桁違いに多い2192188)。
実務上の解釈:
  • 削除偏重は、仮説に区間欠落(無音処理、早期終了、クリップ長の不一致、参照が実際に転写した音声より長い等)を示唆することが多い。
  • 挿入ゼロは雑多な実運用 ASR では稀であり、極端な WER と併せ、スコアを「モデル品質」だけに帰する前にデータ対応(同一ファイル・言語・参照版)を検証する合図となる。
CER ~66% は、参照と仮説のあいだで長大なテキストが一致しない状況と整合し、単なる語の入れ替えだけでは説明しにくい。

7. 要点

  • 速度: 導出 RTF ≈ 0.15 は本クリップで実時間の一部で完了したことを示し、生の WER と独立してレイテンシ重視の場面で有用になり得る。
  • 精度: WER ~69% は、厳密な人間レビューなしに公開引用や法務水準の転写には不十分である。
  • 誤り形状: 削除が支配的; デコード超参の調整より先にカバレッジセグメント整合を調べるべきである。
  • 単一サンプルの限界: 1 本のインタビューと 1 設定は、アクセント・コーデック・雑音下の期待生産性能を定義しない。
  • 再現性: 4 種のアーティファクトを揃えて保管すれば凍結スナップショットが保たれる。

8. 本シナリオにおける「最良モデル」**

本クリップと本参照に限れば、Whisper large-v3-turbo文書化されたベースラインである。タイムスタンプはスループット、WER/CER は参照との不一致を述べるにとどまり、すべての英語インタビューに最適とは主張しない。

9. 中立的な結論

誤りが許容され速度が重要なメモ草案・社内検索・粗いインデックスでは、低 RTF と保存転写が明確な注記付きでまだ使える場合がある。
発言の引用、コンプライアンス重視ワークフロー、アーカイブ公開では、本実行の語精度 ~31%削除偏重のプロファイルから、スコアが検証済みペアで改善するまで人間校正または別の取得/参照整合を前提とすべきである。
データ問題を修正したうえでスコアラを再実行すればよい。方法論は引き続き比較可能である。

ソース資料

ケースフォルダ名: 20260328(リポジトリ上のパス接頭辞: test-transcripts/20260328/)。
  • 原動画(音声ソース): 参照に用いた字幕の同一動画の正規 URL(例: YouTube 視聴リンク)を追記する。ASR に渡した音声はこのアップロードに対応すべきである。
  • 参照転写(VTT): test-transcripts/20260328/ref.vttソース動画付属字幕を WebVTT として保存したもの。
  • モデル転写(VTT): test-transcripts/20260328/model.vtt — 当該音声に対する Whisper large-v3-turbo 出力。
  • 実行メタデータ: test-transcripts/20260328/other.yaml
  • 事前計算評価メトリクス: test-transcripts/20260328/result.json
評価は本リポジトリの scripts/evaluate-vtt-metrics.js で生成した。上記ファイルを test-transcripts/20260328/ に置けば、本文の数値を再現できる。

今すぐ無料で試す

当社のAI音声・オーディオ/ビデオサービスを今すぐお試しください。高精度な音声文字起こし、多言語翻訳、話者分離に対応するだけでなく、自動動画字幕生成、音声・映像コンテンツのインテリジェント編集、音声と映像を組み合わせた同期解析も実現します。会議記録、ショート動画制作、ポッドキャスト制作など、あらゆるシーンをこれ一つでカバーできます。今すぐ無料トライアルを始めましょう!

音声をオンラインでテキストに音声をテキストに無料音声テキスト変換ツール音声をMP3でテキストに音声をWAVでテキストに音声をテキストに(タイムスタンプ付き)会議向けサウンド→テキストSound to Text Multi Language音声をテキストで字幕にWAVをテキストに変換音声テキスト変換オンライン音声テキスト変換音声テキスト変換MP3をテキストに変換音声録音をテキストに変換オンライン音声入力タイムスタンプ付き音声テキスト変換リアルタイム音声テキスト変換長時間音声テキスト変換動画音声テキスト変換YouTube音声テキスト変換動画編集音声テキスト変換字幕音声テキスト変換ポッドキャスト音声テキスト変換インタビュー音声テキスト変換インタビュー音声をテキストに録音音声テキスト変換会議音声テキスト変換講義音声テキスト変換音声メモテキスト変換多言語音声テキスト変換高精度音声テキスト変換高速音声テキスト変換Premiere Pro音声テキスト変換代替DaVinci音声テキスト変換代替VEED音声テキスト変換代替InVideo音声テキスト変換代替Otter.ai音声テキスト変換代替Descript音声テキスト変換代替Trint音声テキスト変換代替Rev音声テキスト変換代替Sonix音声テキスト変換代替Happy Scribe音声テキスト変換代替Zoom音声テキスト変換代替Google Meet音声テキスト変換代替Microsoft Teams音声テキスト変換代替Fireflies.ai音声テキスト変換代替Fathom音声テキスト変換代替FlexClip音声テキスト変換代替Kapwing音声テキスト変換代替Canva音声テキスト変換代替長時間音声テキスト変換AI音声テキスト変換無料音声テキスト変換広告なし音声テキスト変換ノイズのある音声のテキスト変換時間付き音声テキスト変換音声から字幕を生成ポッドキャスト転写オンライン顧客通話を転写TikTok音声をテキストにTikTok音声をテキストにYouTube音声テキスト変換YouTube音声をテキストに音声メモテキスト変換WhatsApp音声メッセージテキスト変換Telegram音声メッセージテキスト変換Discord通話転写Twitch音声テキスト変換Skype音声テキスト変換Messenger音声テキスト変換LINE音声メッセージテキスト変換Vlog転写テキスト変換説教オーディオテキスト変換音声テキスト変換オーディオテキスト変換音声ノートテキスト変換音声入力会議音声入力YouTube音声入力話して入力ハンズフリー入力音声を文字に音声を単語にオンライン音声テキスト変換Online Transcription Software会議音声テキスト変換高速音声テキスト変換Real Time Speech to TextLive Transcription AppTikTok音声テキスト変換TikTok音声テキスト変換話した言葉を文字に音声をテキストにTalk to Text FreeTalk to Text OnlineTalk to Text for YouTubeTalk to Text for SubtitlesTalk to Text for Content CreatorsTalk to Text for Meetings音声をタイピングに音声をテキストに音声書き込みツール音声書き込みツール音声入力法的転写ツール医療音声入力ツール日本語音声転写韓国語会議転写会議転写ツール会議音声をテキストに講義テキスト変換ツール講義音声をテキストに動画テキスト転写TikTok字幕ジェネレーターコールセンター転写Reels音声テキスト変換ツールMP3をテキストに転写WAVファイルをテキストに転写CapCut音声テキスト変換CapCut音声テキスト変換Voice to Text in English英語音声をテキストにVoice to Text in SpanishVoice to Text in Frenchフランス語音声をテキストにVoice to Text in Germanドイツ語音声をテキストにVoice to Text in Japanese日本語音声をテキストにVoice to Text in Korean韓国語音声をテキストにVoice to Text in PortugueseVoice to Text in ArabicVoice to Text in ChineseVoice to Text in HindiVoice to Text in RussianWeb Voice Typing ToolVoice Typing Website