Whisper Medium の英語 YouTube 音声テスト — 2026-03-30 ベンチマーク（WER・CER・RTF）

2026-03-30Test

Eric King

Author

本記事は whisper-model: medium、language: English の固定構成で実行した評価結果です。result.json の strict 指標は WER 68.23%、Accuracy 31.77% で、誤りは削除が支配的（D=8718、S=131、I=0）でした。これは単純な聞き間違いよりも、参照字幕とのカバレッジ／アラインメント差が大きい可能性を示します。

ref.vtt は動画の字幕トラック、model.vtt はモデル出力です。したがって本評価は「プラットフォーム字幕との一致度」を測る実務的ベースラインであり、手作業 gold transcript との純研究評価とは意味が異なります。

1. なぜこのベンチマークが重要か

長尺 YouTube 音声は実運用に近い条件（話速変化、編集、話題切替、固有名詞）を含みます。字幕QA、検索インデックス、再利用ワークフローにおいて、この種の評価は短いデモ音声より意思決定に直結します。

2. Testing Setup

Source: https://www.youtube.com/watch?v=EatCzpKNTMs
Language: English
Model: Whisper medium
YAML duration: 22:44
Evaluated duration: 1364 sec (~22.73 min)
STT processing: 365 sec
RTF: 0.26759530791788855
Time window: 2026-03-30 19:49:57 → 2026-03-30 19:56:02

3. Evaluation Methodology（`scripts/evaluate-vtt-metrics.js`）

スクリプトは VTT のテキストを抽出・正規化し、Levenshtein によるアラインメントで S/D/I/N を算出します。

[ \mathrm{WER} = rac{S + D + I}{N},\quad \mathrm{Accuracy}=1-\mathrm{WER} ] [ \mathrm{CER} = rac{ ext{Character Edit Distance}}{ ext{Reference Character Count}} ] [ \mathrm{RTF}=rac{ ext{Processing Time}}{ ext{Audio Duration}} ]

出力は strictMetrics と relaxedMetrics の2系統です。

4. Model Overview

Whisper medium は速度と品質のバランスを取りやすい汎用設定です。下書き作成や検索用途には有効ですが、逐語公開には追加検証が必要です。

5. Results (From `result.json`)

Strict / metrics

N=12970, S=131, D=8718, I=0
WER=0.6822667694680031
Accuracy=0.31773323053199687
CER=0.6702676587109866
Character edit distance=34683
Reference characters=51745
Audio duration=1364
STT processing=365
RTF=0.26759530791788855

Relaxed

WER=0.682112567463377
Accuracy=0.317887432536623
CER=0.6700148518721175

Rounded

Strict: WER≈68.23%, Accuracy≈31.77%, CER≈67.03%
Relaxed: WER≈68.21%, Accuracy≈31.79%, CER≈67.00%
RTF≈0.268 (~3.7x real-time speed)

6. Error Pattern Analysis

I=0 かつ D >> S なので、主因はフォーマット差よりカバレッジ差です。strict と relaxed の差が小さい点も同じ結論を支持します。

7. Key Insights

RTF は実運用上十分速い
精度は逐語公開には不十分
先にデータ対齐（区間・字幕源）を点検すべき
strict/relaxed が近く、結果は一貫
単一サンプルなので汎化には追加検証が必要

8. Best Model for This Scenario

この動画・この参照条件に限れば、Whisper medium は再現可能な baseline として有効です。全ケース最適を意味するものではありません。

9. Neutral Final Verdict

下書き、検索、要点抽出には実用的。逐語引用やコンプライアンス用途では人手校正またはより強い構成が必要です。

Source Materials

Original audio (video): https://www.youtube.com/watch?v=EatCzpKNTMs
Reference transcript (VTT): test-transcripts/{case-name}/ref.vtt
Model transcript (VTT): test-transcripts/{case-name}/model.vtt
Run metadata: test-transcripts/{case-name}/other.yaml
Precomputed evaluation metrics: test-transcripts/{case-name}/result.json

{case-name} = 20260330。評価スクリプト: scripts/evaluate-vtt-metrics.js。

Whisper Medium の英語 YouTube 音声テスト — 2026-03-30 ベンチマーク（WER・CER・RTF）

1. なぜこのベンチマークが重要か

2. Testing Setup

3. Evaluation Methodology（`scripts/evaluate-vtt-metrics.js`）

4. Model Overview

5. Results (From `result.json`)

6. Error Pattern Analysis

7. Key Insights

8. Best Model for This Scenario

9. Neutral Final Verdict

Source Materials

関連記事

Whisper Medium の英語 YouTube 音声テスト — 2026-03-31 ベンチマーク（WER・CER・RTF）

英語インタビューの文字起こしをAIでテストしてみた ― 2026年2月26日の結果（Whisper BASE、約11分の音声）

今すぐ無料で試す

Whisper Medium の英語 YouTube 音声テスト — 2026-03-30 ベンチマーク（WER・CER・RTF）

1. なぜこのベンチマークが重要か

2. Testing Setup

3. Evaluation Methodology（scripts/evaluate-vtt-metrics.js）

4. Model Overview

5. Results (From result.json)

6. Error Pattern Analysis

7. Key Insights

8. Best Model for This Scenario

9. Neutral Final Verdict

Source Materials

関連記事

Whisper Medium の英語 YouTube 音声テスト — 2026-03-31 ベンチマーク（WER・CER・RTF）

英語インタビューの文字起こしをAIでテストしてみた ― 2026年2月26日の結果（Whisper BASE、約11分の音声）

今すぐ無料で試す

3. Evaluation Methodology（`scripts/evaluate-vtt-metrics.js`）

5. Results (From `result.json`)