🎉 Estamos no ar! Todos os serviços são gratuitos durante nosso período de teste—planos de preços em breve.

Whisper Medium em áudio do YouTube em inglês — Benchmark 2026-03-30 (WER, CER, RTF)

Whisper Medium em áudio do YouTube em inglês — Benchmark 2026-03-30 (WER, CER, RTF)

2026-03-30Test
Eric King

Eric King

Author


Este post documenta uma execução com configuração fixa em áudio do YouTube em inglês usando Whisper medium. No result.json, o score strict é WER 68,23% e Accuracy 31,77%, com perfil de erro dominado por deleções (D=8718, S=131, I=0). Isso sugere mais desalinhamento de cobertura entre referência e hipótese do que erros pontuais de reconhecimento.
Video and reference text. Source video: https://www.youtube.com/watch?v=EatCzpKNTMs. The reference (ref.vtt) comes from the platform caption track, while model.vtt is the model output. So this benchmark measures agreement with platform captions (practical baseline), not a manually curated linguistic gold standard.

1. Why This Benchmark Matters

Long-form YouTube audio is a realistic ASR stress case: changing pace, edits, names, topic shifts, and mixed speaking styles. For subtitle QA, retrieval indexing, and content repurposing, this setup is more representative than short clean demos.
Using platform captions as reference also answers a practical product question: how far does our ASR output drift from what end users already see as subtitles? Even if captions are not perfect gold labels, this comparison is operationally useful and reproducible.

2. Testing Setup

Values below are taken from other.yaml and result.json in case 20260330.
FieldValue
SourceYouTube video
Date (processing window)2026-03-30 (processtime-atcompleted-at)
LanguageEnglish
Whisper modelmedium
Audio duration (YAML label)22:44
Audio duration (scorer / YAML parsed)1364 s (≈ 22.73 minutes)
STT processing time365 s
RTF0.2676
Wall-clock timestamps: 2026-03-30 19:49:572026-03-30 19:56:02, consistent with 365 seconds processing time.

3. Evaluation Methodology

Evaluation script used: scripts/evaluate-vtt-metrics.js.
The script reads ref.vtt and model.vtt, extracts plain cue text, normalizes tokens, and aligns reference/hypothesis with Levenshtein dynamic programming.
[ \mathrm{WER} = rac{S + D + I}{N}, \qquad \mathrm{Accuracy} = 1 - \mathrm{WER} ]
[ \mathrm{CER} = rac{ ext{Character edit distance}}{ ext{Reference character count (no spaces)}} ]
[ \mathrm{RTF} = rac{ ext{STT processing time}}{ ext{Audio duration}} ]
The script outputs two views:
  • strictMetrics: default normalization
  • relaxedMetrics: additional normalization (quotes/number formatting)
This helps distinguish formatting noise from true lexical/coverage mismatch.

4. Model Overview

Whisper medium is a common speed/quality trade-off checkpoint in practical transcription stacks. It is often suitable for draft transcripts, indexing, and downstream NLP preprocessing, but still requires review for verbatim publishing or compliance-sensitive workflows.
This benchmark tests one fixed setup only (no decoder sweep, no custom post-correction, no domain lexicon boosting).

5. Results (From result.json)

Strict metrics (metrics / strictMetrics)
  • Reference word count (N): 12,970
  • Substitutions (S): 131
  • Deletions (D): 8,718
  • Insertions (I): 0
  • WER: 0.6822667694680031
  • Accuracy: 0.31773323053199687
  • Reference character count: 51,745
  • Character edit distance: 34,683
  • CER: 0.6702676587109866
  • Audio duration (seconds): 1,364
  • STT processing time (seconds): 365
  • RTF: 0.26759530791788855
  • Eval script runtime (seconds): 149.07
Relaxed metrics (relaxedMetrics)
  • WER: 0.682112567463377
  • Accuracy: 0.317887432536623
  • CER: 0.6700148518721175
  • Character edit distance: 34,286
  • Reference character count: 51,172
Rounded interpretation
  • Strict WER ≈ 68.23%, Accuracy ≈ 31.77%, CER ≈ 67.03%
  • Relaxed WER ≈ 68.21%, Accuracy ≈ 31.79%, CER ≈ 67.00%
  • Small strict/relaxed gap indicates mismatch is not mainly punctuation/formatting noise.
  • RTF ≈ 0.268 (about 3.7× faster than real time)

6. Error Pattern Analysis

Two signals stand out:
  • Insertion = 0
  • Deletion >> substitution (8,718 vs 131)
This pattern usually means many reference words are not aligned to hypothesis tokens. Typical causes include segmentation mismatch, truncated hypothesis coverage, or reference captions containing spans not reflected in model output.
Because strict and relaxed results are almost identical, normalization tweaks are not the main driver; coverage/alignment is likely dominant.

7. Key Insights

  • Speed: RTF is comfortably below 1, so throughput is practical for batch processing.
  • Accuracy: ~68% WER is too high for quote-level publication without review.
  • Error mode: Deletion-heavy profile suggests checking pairing/coverage before hyperparameter tuning.
  • Method robustness: strict and relaxed metrics are close, improving interpretability.
  • Representativeness: ~22.7 minutes is meaningful long-form input, but still only one clip/one setup.

8. Best Model for This Scenario

Under the narrow scope “Whisper medium + this exact clip + this exact reference source,” the run is a transparent baseline for future A/B comparisons. It does not claim universal superiority across all English YouTube transcription scenarios.

9. Neutral Final Verdict

For draft, indexing, and topic extraction workflows, this setup can be operationally useful. For verbatim publishing, compliance records, or accessibility-critical subtitles, current agreement levels still imply mandatory human correction or a stronger setup.
Keep the evaluation method fixed (scripts/evaluate-vtt-metrics.js) when iterating models so improvements remain comparable.

Source Materials

  • Original audio (video): https://www.youtube.com/watch?v=EatCzpKNTMs
  • Reference transcript (VTT): test-transcripts/{case-name}/ref.vtt
  • Model transcript (VTT): test-transcripts/{case-name}/model.vtt
  • Run metadata: test-transcripts/{case-name}/other.yaml
  • Precomputed evaluation metrics: test-transcripts/{case-name}/result.json
{case-name} = 20260330. Evaluation script: scripts/evaluate-vtt-metrics.js.

Experimente grátis agora

Experimente agora o nosso serviço de voz, áudio e vídeo com IA. Você terá não só transcrição de voz para texto de alta precisão, tradução multilíngue e diarização inteligente de falantes, como também geração automática de legendas para vídeos, edição inteligente de conteúdo audiovisual e análise sincronizada de áudio e imagem. Cobrimos cenários como atas de reunião, criação de vídeos curtos e produção de podcasts — comece hoje mesmo o seu teste gratuito!

Som para Texto OnlineSom para Texto GratuitoConversor de Som para TextoSom para Texto MP3Som para Texto WAVSom para Texto com Carimbos de TempoSound to Text for MeetingsSound to Text Multi LanguageSom para Texto LegendasConverter WAV para textoVoz para TextoVoz para Texto OnlineFala para TextoConverter MP3 para TextoConverter gravação de voz em textoDigitação por Voz OnlineVoz para Texto com Carimbos de TempoVoz para Texto em Tempo RealVoz para Texto para Áudio LongoVoz para Texto para VídeoVoz para Texto para YouTubeVoz para Texto para Edição de VídeoVoz para Texto para LegendasVoz para Texto para PodcastsVoz para Texto para EntrevistasÁudio de Entrevista para TextoVoz para Texto para GravaçõesVoz para Texto para ReuniõesVoz para Texto para AulasVoz para Texto para NotasVoz para Texto MultilíngueVoz para Texto PrecisoVoz para Texto RápidoAlternativa Premiere Pro Voz para TextoAlternativa DaVinci Voz para TextoAlternativa VEED Voz para TextoAlternativa InVideo Voz para TextoAlternativa Otter.ai Voz para TextoAlternativa Descript Voz para TextoAlternativa Trint Voz para TextoAlternativa Rev Voz para TextoAlternativa Sonix Voz para TextoAlternativa Happy Scribe Voz para TextoAlternativa Zoom Voz para TextoAlternativa Google Meet Voz para TextoAlternativa Microsoft Teams Voz para TextoAlternativa Fireflies.ai Voz para TextoAlternativa Fathom Voz para TextoAlternativa FlexClip Voz para TextoAlternativa Kapwing Voz para TextoAlternativa Canva Voz para TextoVoz para Texto para Áudio LongoVoz IA para TextoVoz para Texto GrátisVoz para Texto sem AnúnciosVoz para Texto para Áudio RuidosoVoz para Texto com TempoGerar Legendas de ÁudioTranscrição de Podcast OnlineTranscrever Chamadas de ClientesVoz do TikTok para TextoÁudio do TikTok para TextoVoz do YouTube para TextoÁudio do YouTube para TextoNota de Voz para TextoMensagem de Voz do WhatsApp para TextoMensagem de Voz do Telegram para TextoTranscrição de Chamada DiscordVoz do Twitch para TextoVoz do Skype para TextoVoz do Messenger para TextoMensagem de Voz do LINE para TextoTranscrever Vlogs para TextoConverter Áudio de Sermão em TextoConverter Fala em EscritaTraduzir Áudio para TextoConverter Notas de Áudio em TextoDigitação por VozDigitação por Voz para ReuniõesDigitação por Voz para YouTubeFalar para DigitarDigitação Sem MãosVoz para PalavrasFala para PalavrasFala para Texto OnlineOnline Transcription SoftwareFala para Texto para ReuniõesFala para Texto RápidoReal Time Speech to TextLive Transcription AppFala para Texto para TikTokSom para Texto para TikTokFalando para PalavrasFalar para TextoTalk to Text FreeTalk to Text OnlineTalk to Text for YouTubeTalk to Text for SubtitlesTalk to Text for Content CreatorsTalk to Text for MeetingsÁudio para DigitaçãoSom para TextoFerramenta de Escrita por VozFerramenta de Escrita por FalaDitado por VozFerramenta de Transcrição LegalFerramenta de Ditado MédicoTranscrição de Áudio JaponêsTranscrição de Reuniões em CoreanoFerramenta de Transcrição de ReuniõesÁudio de Reunião para TextoConversor de Aulas para TextoÁudio de Aula para TextoTranscrição de Vídeo para TextoGerador de Legendas para TikTokTranscrição de Call CenterFerramenta de Áudio Reels para TextoTranscrever MP3 para TextoTranscrever arquivo WAV para textoCapCut Voz para TextoCapCut Voz para TextoVoice to Text in EnglishÁudio para Texto em InglêsVoice to Text in SpanishVoice to Text in FrenchÁudio para Texto em FrancêsVoice to Text in GermanÁudio para Texto em AlemãoVoice to Text in JapaneseÁudio para Texto em JaponêsVoice to Text in KoreanÁudio para Texto em CoreanoVoice to Text in PortugueseVoice to Text in ArabicVoice to Text in ChineseVoice to Text in HindiVoice to Text in RussianWeb Voice Typing ToolVoice Typing Website