Whisper Medium の英語 YouTube 音声テスト — 2026-03-31 ベンチマーク（WER・CER・RTF）

2026-03-31Test

Eric King

Author

本記事は whisper-model: medium、language: English の固定構成で実行した評価結果です。result.json の strict 指標は WER 67.75%、Accuracy 32.25% で、誤りは削除が支配的（D=5722、S=68、I=0）でした。これは単純な聞き間違いよりも、参照字幕とのカバレッジ／アラインメント差が大きい可能性を示します。

ref.vtt は動画の字幕トラック、model.vtt はモデル出力です。したがって本評価は「プラットフォーム字幕との一致度」を測る実務的ベースラインであり、手作業 gold transcript との純研究評価とは意味が異なります。

1. なぜこのベンチマークが重要か

長尺 YouTube 音声は実運用に近い条件（話速変化、編集、話題切替、固有名詞）を含みます。字幕QA、検索インデックス、再利用ワークフローにおいて、この種の評価は短いデモ音声より意思決定に直結します。

2. Testing Setup

Source: https://www.youtube.com/watch?v=7J96ESznKMQ
Language: English
Model: Whisper medium
YAML duration: 17:20
Evaluated duration: 1040 sec (~17.33 min)
STT processing: 133 sec
RTF: 0.12788461538461537
Time window: 2026-03-31 19:20:56 → 2026-03-31 19:23:09

3. Evaluation Methodology（`scripts/evaluate-vtt-metrics.js`）

スクリプトは VTT のテキストを抽出・正規化し、Levenshtein によるアラインメントで S/D/I/N を算出します。

[ \mathrm{WER} = \frac{S + D + I}{N},\quad \mathrm{Accuracy}=1-\mathrm{WER} ] [ \mathrm{CER} = \frac{\text{Character Edit Distance}}{\text{Reference Character Count}} ] [ \mathrm{RTF}=\frac{\text{Processing Time}}{\text{Audio Duration}} ]

出力は strictMetrics と relaxedMetrics の2系統です。

4. Model Overview

Whisper medium は速度と品質のバランスを取りやすい汎用設定です。下書き作成や検索用途には有効ですが、逐語公開には追加検証が必要です。

5. Results (From `result.json`)

Strict / metrics

N=8546, S=68, D=5722, I=0
WER=0.6775099461736485
Accuracy=0.32249005382635154
CER=0.6670790930743296
Character edit distance=21566
Reference characters=32329
Audio duration=1040
STT processing=133
RTF=0.12788461538461537

Relaxed

WER=0.6775099461736485
Accuracy=0.32249005382635154
CER=0.666760334707683

Rounded

Strict: WER≈67.75%, Accuracy≈32.25%, CER≈66.71%
Relaxed: WER≈67.75%, Accuracy≈32.25%, CER≈66.68%
RTF≈0.128 (~7.8x real-time speed)

6. Error Pattern Analysis

I=0 かつ D >> S なので、主因はフォーマット差よりカバレッジ差です。strict と relaxed の差が小さい点も同じ結論を支持します。

7. Key Insights

RTF は実運用上十分速い
精度は逐語公開には不十分
先にデータ対齐（区間・字幕源）を点検すべき
strict/relaxed が近く、結果は一貫
単一サンプルなので汎化には追加検証が必要

8. Best Model for This Scenario

この動画・この参照条件に限れば、Whisper medium は再現可能な baseline として有効です。全ケース最適を意味するものではありません。

9. Neutral Final Verdict

下書き、検索、要点抽出には実用的。逐語引用やコンプライアンス用途では人手校正またはより強い構成が必要です。

Source Materials

Original audio (video): https://www.youtube.com/watch?v=7J96ESznKMQ
Reference transcript (VTT): test-transcripts/{case-name}/ref.vtt
Model transcript (VTT): test-transcripts/{case-name}/model.vtt
Run metadata: test-transcripts/{case-name}/other.yaml
Precomputed evaluation metrics: test-transcripts/{case-name}/result.json

{case-name} = 20260331。評価スクリプト: scripts/evaluate-vtt-metrics.js。

Whisper Medium の英語 YouTube 音声テスト — 2026-03-31 ベンチマーク（WER・CER・RTF）

1. なぜこのベンチマークが重要か

2. Testing Setup

3. Evaluation Methodology（`scripts/evaluate-vtt-metrics.js`）

4. Model Overview

5. Results (From `result.json`)

6. Error Pattern Analysis

7. Key Insights

8. Best Model for This Scenario

9. Neutral Final Verdict

Source Materials

関連記事

Whisper Medium の英語 YouTube 音声テスト — 2026-03-30 ベンチマーク（WER・CER・RTF）

英語インタビューの文字起こしをAIでテストしてみた ― 2026年2月26日の結果（Whisper BASE、約11分の音声）

今すぐ無料で試す

Whisper Medium の英語 YouTube 音声テスト — 2026-03-31 ベンチマーク（WER・CER・RTF）

1. なぜこのベンチマークが重要か

2. Testing Setup

3. Evaluation Methodology（scripts/evaluate-vtt-metrics.js）

4. Model Overview

5. Results (From result.json)

6. Error Pattern Analysis

7. Key Insights

8. Best Model for This Scenario

9. Neutral Final Verdict

Source Materials

関連記事

Whisper Medium の英語 YouTube 音声テスト — 2026-03-30 ベンチマーク（WER・CER・RTF）

英語インタビューの文字起こしをAIでテストしてみた ― 2026年2月26日の結果（Whisper BASE、約11分の音声）

今すぐ無料で試す

3. Evaluation Methodology（`scripts/evaluate-vtt-metrics.js`）

5. Results (From `result.json`)