
Whisper Medium の英語 YouTube 音声テスト — 2026-03-31 ベンチマーク(WER・CER・RTF)
2026-03-31Test
Eric King
Author
本記事は
whisper-model: medium、language: English の固定構成で実行した評価結果です。result.json の strict 指標は WER 67.75%、Accuracy 32.25% で、誤りは削除が支配的(D=5722、S=68、I=0)でした。これは単純な聞き間違いよりも、参照字幕とのカバレッジ/アラインメント差が大きい可能性を示します。ref.vtt は動画の字幕トラック、model.vtt はモデル出力です。したがって本評価は「プラットフォーム字幕との一致度」を測る実務的ベースラインであり、手作業 gold transcript との純研究評価とは意味が異なります。1. なぜこのベンチマークが重要か
長尺 YouTube 音声は実運用に近い条件(話速変化、編集、話題切替、固有名詞)を含みます。字幕QA、検索インデックス、再利用ワークフローにおいて、この種の評価は短いデモ音声より意思決定に直結します。
2. Testing Setup
- Source: https://www.youtube.com/watch?v=7J96ESznKMQ
- Language: English
- Model: Whisper medium
- YAML duration: 17:20
- Evaluated duration: 1040 sec (~17.33 min)
- STT processing: 133 sec
- RTF: 0.12788461538461537
- Time window: 2026-03-31 19:20:56 → 2026-03-31 19:23:09
3. Evaluation Methodology(scripts/evaluate-vtt-metrics.js)
スクリプトは VTT のテキストを抽出・正規化し、Levenshtein によるアラインメントで
S/D/I/N を算出します。[
\mathrm{WER} = \frac{S + D + I}{N},\quad \mathrm{Accuracy}=1-\mathrm{WER}
]
[
\mathrm{CER} = \frac{\text{Character Edit Distance}}{\text{Reference Character Count}}
]
[
\mathrm{RTF}=\frac{\text{Processing Time}}{\text{Audio Duration}}
]
出力は
strictMetrics と relaxedMetrics の2系統です。4. Model Overview
Whisper medium は速度と品質のバランスを取りやすい汎用設定です。下書き作成や検索用途には有効ですが、逐語公開には追加検証が必要です。
5. Results (From result.json)
Strict / metrics
- N=8546, S=68, D=5722, I=0
- WER=0.6775099461736485
- Accuracy=0.32249005382635154
- CER=0.6670790930743296
- Character edit distance=21566
- Reference characters=32329
- Audio duration=1040
- STT processing=133
- RTF=0.12788461538461537
Relaxed
- WER=0.6775099461736485
- Accuracy=0.32249005382635154
- CER=0.666760334707683
Rounded
- Strict: WER≈67.75%, Accuracy≈32.25%, CER≈66.71%
- Relaxed: WER≈67.75%, Accuracy≈32.25%, CER≈66.68%
- RTF≈0.128 (~7.8x real-time speed)
6. Error Pattern Analysis
I=0 かつ D >> S なので、主因はフォーマット差よりカバレッジ差です。strict と relaxed の差が小さい点も同じ結論を支持します。7. Key Insights
- RTF は実運用上十分速い
- 精度は逐語公開には不十分
- 先にデータ対齐(区間・字幕源)を点検すべき
- strict/relaxed が近く、結果は一貫
- 単一サンプルなので汎化には追加検証が必要
8. Best Model for This Scenario
この動画・この参照条件に限れば、Whisper medium は再現可能な baseline として有効です。全ケース最適を意味するものではありません。
9. Neutral Final Verdict
下書き、検索、要点抽出には実用的。逐語引用やコンプライアンス用途では人手校正またはより強い構成が必要です。
Source Materials
- Original audio (video): https://www.youtube.com/watch?v=7J96ESznKMQ
- Reference transcript (VTT):
test-transcripts/{case-name}/ref.vtt - Model transcript (VTT):
test-transcripts/{case-name}/model.vtt - Run metadata:
test-transcripts/{case-name}/other.yaml - Precomputed evaluation metrics:
test-transcripts/{case-name}/result.json
{case-name} = 20260331。評価スクリプト: scripts/evaluate-vtt-metrics.js。