🎉 サイト公開!トライアル期間中は全機能を無料提供。料金プランは近日公開予定です。

Whisper Medium の英語 YouTube 音声テスト — 2026-03-30 ベンチマーク(WER・CER・RTF)

Whisper Medium の英語 YouTube 音声テスト — 2026-03-30 ベンチマーク(WER・CER・RTF)

2026-03-30Test
Eric King

Eric King

Author


本記事は whisper-model: mediumlanguage: English の固定構成で実行した評価結果です。result.json の strict 指標は WER 68.23%Accuracy 31.77% で、誤りは削除が支配的(D=8718S=131I=0)でした。これは単純な聞き間違いよりも、参照字幕とのカバレッジ/アラインメント差が大きい可能性を示します。
ref.vtt は動画の字幕トラック、model.vtt はモデル出力です。したがって本評価は「プラットフォーム字幕との一致度」を測る実務的ベースラインであり、手作業 gold transcript との純研究評価とは意味が異なります。

1. なぜこのベンチマークが重要か

長尺 YouTube 音声は実運用に近い条件(話速変化、編集、話題切替、固有名詞)を含みます。字幕QA、検索インデックス、再利用ワークフローにおいて、この種の評価は短いデモ音声より意思決定に直結します。

2. Testing Setup

  • Source: https://www.youtube.com/watch?v=EatCzpKNTMs
  • Language: English
  • Model: Whisper medium
  • YAML duration: 22:44
  • Evaluated duration: 1364 sec (~22.73 min)
  • STT processing: 365 sec
  • RTF: 0.26759530791788855
  • Time window: 2026-03-30 19:49:57 → 2026-03-30 19:56:02

3. Evaluation Methodology(scripts/evaluate-vtt-metrics.js

スクリプトは VTT のテキストを抽出・正規化し、Levenshtein によるアラインメントで S/D/I/N を算出します。
[ \mathrm{WER} = rac{S + D + I}{N},\quad \mathrm{Accuracy}=1-\mathrm{WER} ] [ \mathrm{CER} = rac{ ext{Character Edit Distance}}{ ext{Reference Character Count}} ] [ \mathrm{RTF}= rac{ ext{Processing Time}}{ ext{Audio Duration}} ]
出力は strictMetricsrelaxedMetrics の2系統です。

4. Model Overview

Whisper medium は速度と品質のバランスを取りやすい汎用設定です。下書き作成や検索用途には有効ですが、逐語公開には追加検証が必要です。

5. Results (From result.json)

Strict / metrics
  • N=12970, S=131, D=8718, I=0
  • WER=0.6822667694680031
  • Accuracy=0.31773323053199687
  • CER=0.6702676587109866
  • Character edit distance=34683
  • Reference characters=51745
  • Audio duration=1364
  • STT processing=365
  • RTF=0.26759530791788855
Relaxed
  • WER=0.682112567463377
  • Accuracy=0.317887432536623
  • CER=0.6700148518721175
Rounded
  • Strict: WER≈68.23%, Accuracy≈31.77%, CER≈67.03%
  • Relaxed: WER≈68.21%, Accuracy≈31.79%, CER≈67.00%
  • RTF≈0.268 (~3.7x real-time speed)

6. Error Pattern Analysis

I=0 かつ D >> S なので、主因はフォーマット差よりカバレッジ差です。strict と relaxed の差が小さい点も同じ結論を支持します。

7. Key Insights

  • RTF は実運用上十分速い
  • 精度は逐語公開には不十分
  • 先にデータ対齐(区間・字幕源)を点検すべき
  • strict/relaxed が近く、結果は一貫
  • 単一サンプルなので汎化には追加検証が必要

8. Best Model for This Scenario

この動画・この参照条件に限れば、Whisper medium は再現可能な baseline として有効です。全ケース最適を意味するものではありません。

9. Neutral Final Verdict

下書き、検索、要点抽出には実用的。逐語引用やコンプライアンス用途では人手校正またはより強い構成が必要です。

Source Materials

  • Original audio (video): https://www.youtube.com/watch?v=EatCzpKNTMs
  • Reference transcript (VTT): test-transcripts/{case-name}/ref.vtt
  • Model transcript (VTT): test-transcripts/{case-name}/model.vtt
  • Run metadata: test-transcripts/{case-name}/other.yaml
  • Precomputed evaluation metrics: test-transcripts/{case-name}/result.json
{case-name} = 20260330。評価スクリプト: scripts/evaluate-vtt-metrics.js

今すぐ無料で試す

当社のAI音声・オーディオ/ビデオサービスを今すぐお試しください。高精度な音声文字起こし、多言語翻訳、話者分離に対応するだけでなく、自動動画字幕生成、音声・映像コンテンツのインテリジェント編集、音声と映像を組み合わせた同期解析も実現します。会議記録、ショート動画制作、ポッドキャスト制作など、あらゆるシーンをこれ一つでカバーできます。今すぐ無料トライアルを始めましょう!

音声をオンラインでテキストに音声をテキストに無料音声テキスト変換ツール音声をMP3でテキストに音声をWAVでテキストに音声をテキストに(タイムスタンプ付き)Sound to Text for MeetingsSound to Text Multi Language音声をテキストで字幕にWAVをテキストに変換音声テキスト変換オンライン音声テキスト変換音声テキスト変換MP3をテキストに変換音声録音をテキストに変換オンライン音声入力タイムスタンプ付き音声テキスト変換リアルタイム音声テキスト変換長時間音声テキスト変換動画音声テキスト変換YouTube音声テキスト変換動画編集音声テキスト変換字幕音声テキスト変換ポッドキャスト音声テキスト変換インタビュー音声テキスト変換インタビュー音声をテキストに録音音声テキスト変換会議音声テキスト変換講義音声テキスト変換音声メモテキスト変換多言語音声テキスト変換高精度音声テキスト変換高速音声テキスト変換Premiere Pro音声テキスト変換代替DaVinci音声テキスト変換代替VEED音声テキスト変換代替InVideo音声テキスト変換代替Otter.ai音声テキスト変換代替Descript音声テキスト変換代替Trint音声テキスト変換代替Rev音声テキスト変換代替Sonix音声テキスト変換代替Happy Scribe音声テキスト変換代替Zoom音声テキスト変換代替Google Meet音声テキスト変換代替Microsoft Teams音声テキスト変換代替Fireflies.ai音声テキスト変換代替Fathom音声テキスト変換代替FlexClip音声テキスト変換代替Kapwing音声テキスト変換代替Canva音声テキスト変換代替長時間音声テキスト変換AI音声テキスト変換無料音声テキスト変換広告なし音声テキスト変換ノイズのある音声のテキスト変換時間付き音声テキスト変換音声から字幕を生成ポッドキャスト転写オンライン顧客通話を転写TikTok音声をテキストにTikTok音声をテキストにYouTube音声テキスト変換YouTube音声をテキストに音声メモテキスト変換WhatsApp音声メッセージテキスト変換Telegram音声メッセージテキスト変換Discord通話転写Twitch音声テキスト変換Skype音声テキスト変換Messenger音声テキスト変換LINE音声メッセージテキスト変換Vlog転写テキスト変換説教オーディオテキスト変換音声テキスト変換オーディオテキスト変換音声ノートテキスト変換音声入力会議音声入力YouTube音声入力話して入力ハンズフリー入力音声を文字に音声を単語にオンライン音声テキスト変換Online Transcription Software会議音声テキスト変換高速音声テキスト変換Real Time Speech to TextLive Transcription AppTikTok音声テキスト変換TikTok音声テキスト変換話した言葉を文字に音声をテキストにTalk to Text FreeTalk to Text OnlineTalk to Text for YouTubeTalk to Text for SubtitlesTalk to Text for Content CreatorsTalk to Text for Meetings音声をタイピングに音声をテキストに音声書き込みツール音声書き込みツール音声入力法的転写ツール医療音声入力ツール日本語音声転写韓国語会議転写会議転写ツール会議音声をテキストに講義テキスト変換ツール講義音声をテキストに動画テキスト転写TikTok字幕ジェネレーターコールセンター転写Reels音声テキスト変換ツールMP3をテキストに転写WAVファイルをテキストに転写CapCut音声テキスト変換CapCut音声テキスト変換Voice to Text in English英語音声をテキストにVoice to Text in SpanishVoice to Text in Frenchフランス語音声をテキストにVoice to Text in Germanドイツ語音声をテキストにVoice to Text in Japanese日本語音声をテキストにVoice to Text in Korean韓国語音声をテキストにVoice to Text in PortugueseVoice to Text in ArabicVoice to Text in ChineseVoice to Text in HindiVoice to Text in RussianWeb Voice Typing ToolVoice Typing Website