英語インタビューにおける Whisper Large v3 Turbo — 2026年3月28日ベンチマーク（WER、CER、RTF）

本稿は、英語のインタビュー調音声（約 8.5 分）に対する単一・固定設定の 1 回の実行を記録する。スコアラは語誤り率が約 69%と報告し、誤りの大半は削除（2192 削除対 188 置換、0 挿入）である。これは通常、仮説テキストが参照よりはるかに短く、典型的な「ノイズはあるが一通り揃った」転写よりカバーが不足していることを意味する。したがって数値は診断的に読み、モデル出力と参照が同一録音・同一セグメンテーションかを人手で確認することが前提となる。

動画と参照テキスト。 評価対象の音声は 1 本のソース動画（下記リンク）由来である。参照 WebVTT（ref.vtt）はその動画に付属する字幕トラックをプラットフォームから WebVTT として書き出したものであり、独立に作成した「ゴールド」転写ではない。仮説（model.vtt）は同一音声に対する Whisper large-v3-turbo の ASR 出力である。メトリクスはプラットフォーム提供字幕と本 ASR 実行を比較しており、人手で整備した研究用転写との比較とは別物である。

1. 本ベンチマークの意義

インタビュー音声は、話し重なり、テンポのばらつき、固有名、数値など ASR に負荷がかかる条件を含む。モデル ID、言語、長さ、タイムスタンプ、標準メトリクスを公開することで、再実行や他パイプラインと比較可能な記録となる。目的は透明性であり、製品性能の断言ではない。

2. テスト構成

特記なき限り、以下の値は本ケースの other.yaml および result.json から取得する。

項目	値
日付（処理ウィンドウ）	2026-03-28（`other.yaml` の `processtime-at` / `completed-at` 参照）
シナリオ	英語インタビュー調コンテンツ（言語タグ: English）
Whisper モデル	large-v3-turbo（`other.yaml` の `whisper-model`）
音声長（YAML）	08:25（8 分 25 秒のウォールクロック表記）
音声長（スコアラ）	506.88 秒（`result.json` の参照 VTT のキュー範囲から）
ウォールクロック処理区間	`processtime-at`: 2026-03-28 09:56:40.204 → `completed-at`: 2026-03-28 09:57:57.000
導出 STT 処理時間	≈ 76.8 秒（上記 2 タイムスタンプの差。本実行は明示的 2 ファイル VTT モードでスコアラ出力に YAML が付かなかったため `result.json` には保存されない）
導出 RTF	≈ 0.151（処理時間 ÷ 音声長 506.88 秒）

注: 本明示 2 ファイル実行では result.json に "yamlMeta": null とあり、RTF も null。本文の処理時間と RTF は方法論セクションとの整合のため other.yaml から再計算した。

3. 評価方法論

参照と仮説は WebVTT ファイルである。キューからプレーンテキストを抽出（タイムスタンプとインデックスを除去）し、スコアリング前に正規化（大文字小文字、句読点、簡易タイポグラフィ）する。

語レベルアライメント

参照と仮説をトークン列として整列する。標準的なレーベンシュタイン型動的計画法で 2 語列間の最小コスト経路を求め、バックトラックで参照長 N に対する置換（S）、削除（D）、**挿入（I）**の件数を得る。

WER と精度

(S)、(D)、(I) を置換・削除・挿入の件数、(N) を参照語数とする。

[ \mathrm{WER} = \frac{S + D + I}{N}, \qquad \mathrm{Accuracy} = 1 - \mathrm{WER}. ]

CER

正規化文字列から空白を除去する。文字編集距離は文字レベルのレーベンシュタイン距離であり、参照文字数は空白を除いた参照文字列の長さである。

[ \mathrm{CER} = \frac{\text{Character edit distance}}{\text{Reference character count}}. ]

RTF

[ \mathrm{RTF} = \frac{\text{Processing time (seconds)}}{\text{Audio duration (seconds)}}. ]

RTF が 1 未満なら、本ハードウェア／本実行では実時間より高速にデコードできたことを意味する。

4. モデル概要

Whisper large-v3-turbo は「large」系で、フルの large チェックポイントと比べ計算とスループットのトレードオフを取る（挙動は実装とハードに依存）。完全な忠実度を前提としない下書きや検索インデックス向けの汎用多言語 ASR である。本テストは other.yaml の単一設定のみであり、温度・チャンク・VAD のスイープは行っていない。

5. 結果（`result.json` より）

事前計算済みメトリクスオブジェクトの厳密値:

参照語数（N）: 3442
置換（S）: 188
削除（D）: 2192
挿入（I）: 0
WER: 0.6914584543869843
精度: 0.3085415456130157
参照文字数: 15790
文字編集距離: 10494
CER: 0.664597846738442
音声長（秒）: 506.88
JSON 内 STT 処理時間: null（YAML 由来の値はセクション 2）
JSON 内 RTF: null（YAML タイムスタンプから導出 RTF ≈ 0.151）
評価スクリプト実行時間: 3.11 秒

読みやすい丸め

WER ≈ 69.1%、精度 ≈ 30.9%
CER ≈ 66.5%
参照約 15.8k 文字に対し文字編集約 10.5k
RTF ≈ 0.15×（YAML 由来処理時間で本クリップは実時間より高速）

6. 誤りパターン分析

I = 0 のため、このアライメント上で仮説は余分な語を追加していない。語レベル誤りの大半は削除と置換であり、削除は置換の桁違いに多い（2192 対 188）。

実務上の解釈:

削除偏重は、仮説に区間欠落（無音処理、早期終了、クリップ長の不一致、参照が実際に転写した音声より長い等）を示唆することが多い。
挿入ゼロは雑多な実運用 ASR では稀であり、極端な WER と併せ、スコアを「モデル品質」だけに帰する前にデータ対応（同一ファイル・言語・参照版）を検証する合図となる。

CER ~66% は、参照と仮説のあいだで長大なテキストが一致しない状況と整合し、単なる語の入れ替えだけでは説明しにくい。

7. 要点

速度: 導出 RTF ≈ 0.15 は本クリップで実時間の一部で完了したことを示し、生の WER と独立してレイテンシ重視の場面で有用になり得る。
精度: WER ~69% は、厳密な人間レビューなしに公開引用や法務水準の転写には不十分である。
誤り形状: 削除が支配的; デコード超参の調整より先にカバレッジとセグメント整合を調べるべきである。
単一サンプルの限界: 1 本のインタビューと 1 設定は、アクセント・コーデック・雑音下の期待生産性能を定義しない。
再現性: 4 種のアーティファクトを揃えて保管すれば凍結スナップショットが保たれる。

8. 本シナリオにおける「最良モデル」**

本クリップと本参照に限れば、Whisper large-v3-turbo は文書化されたベースラインである。タイムスタンプはスループット、WER/CER は参照との不一致を述べるにとどまり、すべての英語インタビューに最適とは主張しない。

9. 中立的な結論

誤りが許容され速度が重要なメモ草案・社内検索・粗いインデックスでは、低 RTF と保存転写が明確な注記付きでまだ使える場合がある。

発言の引用、コンプライアンス重視ワークフロー、アーカイブ公開では、本実行の語精度 ~31% と削除偏重のプロファイルから、スコアが検証済みペアで改善するまで人間校正または別の取得／参照整合を前提とすべきである。

データ問題を修正したうえでスコアラを再実行すればよい。方法論は引き続き比較可能である。

ソース資料

ケースフォルダ名: 20260328（リポジトリ上のパス接頭辞: test-transcripts/20260328/）。

原動画（音声ソース）: 参照に用いた字幕の同一動画の正規 URL（例: YouTube 視聴リンク）を追記する。ASR に渡した音声はこのアップロードに対応すべきである。
参照転写（VTT）: test-transcripts/20260328/ref.vtt — ソース動画付属字幕を WebVTT として保存したもの。
モデル転写（VTT）: test-transcripts/20260328/model.vtt — 当該音声に対する Whisper large-v3-turbo 出力。
実行メタデータ: test-transcripts/20260328/other.yaml
事前計算評価メトリクス: test-transcripts/20260328/result.json

評価は本リポジトリの scripts/evaluate-vtt-metrics.js で生成した。上記ファイルを test-transcripts/20260328/ に置けば、本文の数値を再現できる。

英語インタビューにおける Whisper Large v3 Turbo — 2026年3月28日ベンチマーク（WER、CER、RTF）

1. 本ベンチマークの意義

2. テスト構成

3. 評価方法論

4. モデル概要

5. 結果（`result.json` より）

6. 誤りパターン分析

7. 要点

8. 本シナリオにおける「最良モデル」**

9. 中立的な結論

ソース資料

関連記事

Whisper Medium の英語 YouTube 音声テスト — 2026-03-31 ベンチマーク（WER・CER・RTF）

Whisper Medium の英語 YouTube 音声テスト — 2026-03-30 ベンチマーク（WER・CER・RTF）

英語の YouTube 音声における Whisper Large v3 Turbo — 2026年3月29日ベンチマーク（WER、CER、RTF）

今すぐ無料で試す

英語インタビューにおける Whisper Large v3 Turbo — 2026年3月28日ベンチマーク（WER、CER、RTF）

1. 本ベンチマークの意義

2. テスト構成

3. 評価方法論

4. モデル概要

5. 結果（result.json より）

6. 誤りパターン分析

7. 要点

8. 本シナリオにおける「最良モデル」**

9. 中立的な結論

ソース資料

関連記事

Whisper Medium の英語 YouTube 音声テスト — 2026-03-31 ベンチマーク（WER・CER・RTF）

Whisper Medium の英語 YouTube 音声テスト — 2026-03-30 ベンチマーク（WER・CER・RTF）

英語の YouTube 音声における Whisper Large v3 Turbo — 2026年3月29日ベンチマーク（WER、CER、RTF）

今すぐ無料で試す

5. 結果（`result.json` より）