🎉 We zijn live! Alle diensten zijn gratis tijdens onze proefperiode—prijsplannen komen binnenkort.

Whisper Medium op Engelstalige YouTube-audio — Benchmark 2026-03-30 (WER, CER, RTF)

Whisper Medium op Engelstalige YouTube-audio — Benchmark 2026-03-30 (WER, CER, RTF)

2026-03-30Test
Eric King

Eric King

Author


Deze post documenteert een run met vaste configuratie op Engelstalige YouTube-audio met Whisper medium. In result.json is de strict score WER 68,23% en Accuracy 31,77%, met een sterk deletie-gedreven foutprofiel (D=8718, S=131, I=0). Dat wijst eerder op een coverage/alignment-mismatch dan op alleen losse woordfouten.
Video and reference text. Source video: https://www.youtube.com/watch?v=EatCzpKNTMs. The reference (ref.vtt) comes from the platform caption track, while model.vtt is the model output. So this benchmark measures agreement with platform captions (practical baseline), not a manually curated linguistic gold standard.

1. Why This Benchmark Matters

Long-form YouTube audio is a realistic ASR stress case: changing pace, edits, names, topic shifts, and mixed speaking styles. For subtitle QA, retrieval indexing, and content repurposing, this setup is more representative than short clean demos.
Using platform captions as reference also answers a practical product question: how far does our ASR output drift from what end users already see as subtitles? Even if captions are not perfect gold labels, this comparison is operationally useful and reproducible.

2. Testing Setup

Values below are taken from other.yaml and result.json in case 20260330.
FieldValue
SourceYouTube video
Date (processing window)2026-03-30 (processtime-atcompleted-at)
LanguageEnglish
Whisper modelmedium
Audio duration (YAML label)22:44
Audio duration (scorer / YAML parsed)1364 s (≈ 22.73 minutes)
STT processing time365 s
RTF0.2676
Wall-clock timestamps: 2026-03-30 19:49:572026-03-30 19:56:02, consistent with 365 seconds processing time.

3. Evaluation Methodology

Evaluation script used: scripts/evaluate-vtt-metrics.js.
The script reads ref.vtt and model.vtt, extracts plain cue text, normalizes tokens, and aligns reference/hypothesis with Levenshtein dynamic programming.
[ \mathrm{WER} = rac{S + D + I}{N}, \qquad \mathrm{Accuracy} = 1 - \mathrm{WER} ]
[ \mathrm{CER} = rac{ ext{Character edit distance}}{ ext{Reference character count (no spaces)}} ]
[ \mathrm{RTF} = rac{ ext{STT processing time}}{ ext{Audio duration}} ]
The script outputs two views:
  • strictMetrics: default normalization
  • relaxedMetrics: additional normalization (quotes/number formatting)
This helps distinguish formatting noise from true lexical/coverage mismatch.

4. Model Overview

Whisper medium is a common speed/quality trade-off checkpoint in practical transcription stacks. It is often suitable for draft transcripts, indexing, and downstream NLP preprocessing, but still requires review for verbatim publishing or compliance-sensitive workflows.
This benchmark tests one fixed setup only (no decoder sweep, no custom post-correction, no domain lexicon boosting).

5. Results (From result.json)

Strict metrics (metrics / strictMetrics)
  • Reference word count (N): 12,970
  • Substitutions (S): 131
  • Deletions (D): 8,718
  • Insertions (I): 0
  • WER: 0.6822667694680031
  • Accuracy: 0.31773323053199687
  • Reference character count: 51,745
  • Character edit distance: 34,683
  • CER: 0.6702676587109866
  • Audio duration (seconds): 1,364
  • STT processing time (seconds): 365
  • RTF: 0.26759530791788855
  • Eval script runtime (seconds): 149.07
Relaxed metrics (relaxedMetrics)
  • WER: 0.682112567463377
  • Accuracy: 0.317887432536623
  • CER: 0.6700148518721175
  • Character edit distance: 34,286
  • Reference character count: 51,172
Rounded interpretation
  • Strict WER ≈ 68.23%, Accuracy ≈ 31.77%, CER ≈ 67.03%
  • Relaxed WER ≈ 68.21%, Accuracy ≈ 31.79%, CER ≈ 67.00%
  • Small strict/relaxed gap indicates mismatch is not mainly punctuation/formatting noise.
  • RTF ≈ 0.268 (about 3.7× faster than real time)

6. Error Pattern Analysis

Two signals stand out:
  • Insertion = 0
  • Deletion >> substitution (8,718 vs 131)
This pattern usually means many reference words are not aligned to hypothesis tokens. Typical causes include segmentation mismatch, truncated hypothesis coverage, or reference captions containing spans not reflected in model output.
Because strict and relaxed results are almost identical, normalization tweaks are not the main driver; coverage/alignment is likely dominant.

7. Key Insights

  • Speed: RTF is comfortably below 1, so throughput is practical for batch processing.
  • Accuracy: ~68% WER is too high for quote-level publication without review.
  • Error mode: Deletion-heavy profile suggests checking pairing/coverage before hyperparameter tuning.
  • Method robustness: strict and relaxed metrics are close, improving interpretability.
  • Representativeness: ~22.7 minutes is meaningful long-form input, but still only one clip/one setup.

8. Best Model for This Scenario

Under the narrow scope “Whisper medium + this exact clip + this exact reference source,” the run is a transparent baseline for future A/B comparisons. It does not claim universal superiority across all English YouTube transcription scenarios.

9. Neutral Final Verdict

For draft, indexing, and topic extraction workflows, this setup can be operationally useful. For verbatim publishing, compliance records, or accessibility-critical subtitles, current agreement levels still imply mandatory human correction or a stronger setup.
Keep the evaluation method fixed (scripts/evaluate-vtt-metrics.js) when iterating models so improvements remain comparable.

Source Materials

  • Original audio (video): https://www.youtube.com/watch?v=EatCzpKNTMs
  • Reference transcript (VTT): test-transcripts/{case-name}/ref.vtt
  • Model transcript (VTT): test-transcripts/{case-name}/model.vtt
  • Run metadata: test-transcripts/{case-name}/other.yaml
  • Precomputed evaluation metrics: test-transcripts/{case-name}/result.json
{case-name} = 20260330. Evaluation script: scripts/evaluate-vtt-metrics.js.

Probeer het nu gratis

Probeer nu onze AI‑oplossing voor spraak, audio en video. Je profiteert niet alleen van zeer nauwkeurige spraak‑naar‑tekst‑transcriptie, meertalige vertaling en slimme sprekerherkenning, maar ook van automatische ondertitelgeneratie voor video, intelligente audio‑ en videobewerking en gesynchroniseerde audio‑visuele analyse. Het dekt alle scenario’s: vergaderverslagen, short‑video creatie, podcastproductie en meer. Start vandaag nog je gratis proefperiode!

Geluid naar Tekst OnlineGeluid naar Tekst GratisGeluid naar Tekst ConverterGeluid naar Tekst MP3Geluid naar Tekst WAVGeluid naar Tekst met TijdstempelsSound to Text for MeetingsSound to Text Multi LanguageGeluid naar Tekst OndertitelsWAV naar tekst converterenStem naar TekstStem naar Tekst OnlineSpraak naar TekstMP3 naar Tekst ConverterenSpraakopname naar tekst converterenOnline SpraaktypenStem naar Tekst met TijdstempelsStem naar Tekst in RealtimeStem naar Tekst voor Lange AudioStem naar Tekst voor VideoSpraak naar Tekst voor YouTubeSpraak naar Tekst voor VideobewerkingSpraak naar Tekst voor OndertitelsSpraak naar Tekst voor PodcastsSpraak naar Tekst voor InterviewsInterview Audio naar TekstSpraak naar Tekst voor OpnamesSpraak naar Tekst voor VergaderingenSpraak naar Tekst voor CollegesSpraak naar Tekst voor NotitiesStem naar Tekst MeertaligStem naar Tekst NauwkeurigStem naar Tekst SnelPremiere Pro Stem naar Tekst AlternatiefDaVinci Stem naar Tekst AlternatiefVEED Stem naar Tekst AlternatiefInVideo Stem naar Tekst AlternatiefOtter.ai Stem naar Tekst AlternatiefDescript Stem naar Tekst AlternatiefTrint Stem naar Tekst AlternatiefRev Stem naar Tekst AlternatiefSonix Stem naar Tekst AlternatiefHappy Scribe Stem naar Tekst AlternatiefZoom Stem naar Tekst AlternatiefGoogle Meet Stem naar Tekst AlternatiefMicrosoft Teams Stem naar Tekst AlternatiefFireflies.ai Stem naar Tekst AlternatiefFathom Stem naar Tekst AlternatiefFlexClip Stem naar Tekst AlternatiefKapwing Stem naar Tekst AlternatiefCanva Stem naar Tekst AlternatiefSpraak naar Tekst voor Lange AudioAI Spraak naar TekstGratis Spraak naar TekstSpraak naar Tekst zonder ReclameSpraak naar Tekst voor Lawaaierige AudioSpraak naar Tekst met TijdOndertitels Genereren uit AudioPodcast Transcriptie OnlineKlantgesprekken TranscriberenTikTok Stem naar TekstTikTok Audio naar TekstYouTube Spraak naar TekstYouTube Audio naar TekstSpraakmemo naar TekstWhatsApp Spraakbericht naar TekstTelegram Spraakbericht naar TekstDiscord Oproep TranscriptieTwitch Spraak naar TekstSkype Spraak naar TekstMessenger Spraak naar TekstLINE Spraakbericht naar TekstVlogs naar Tekst TranscribenSermoen Audio naar Tekst ConverterenSpraak naar Schrijven ConverterenAudio naar Tekst VertalenAudio Notities naar Tekst ConverterenSpraak TypenSpraak Typen voor VergaderingenSpraak Typen voor YouTubeSpreek om te TypenHandenvrij TypenStem naar WoordenSpraak naar WoordenSpraak naar Tekst OnlineOnline Transcription SoftwareSpraak naar Tekst voor VergaderingenSnelle Spraak naar TekstReal Time Speech to TextLive Transcription AppSpraak naar Tekst voor TikTokGeluid naar Tekst voor TikTokPraten naar WoordenSpraak naar TekstTalk to Text FreeTalk to Text OnlineTalk to Text for YouTubeTalk to Text for SubtitlesTalk to Text for Content CreatorsTalk to Text for MeetingsAudio naar TypenGeluid naar TekstSpraak SchrijftoolSpraak SchrijftoolSpraakdicteeJuridische Transcriptie ToolMedische Dictatie ToolJapanse Audio TranscriptieKoreaanse Meeting TranscriptieMeeting Transcriptie ToolMeeting Audio naar TekstCollege naar Tekst ConverterCollege Audio naar TekstVideo naar Tekst TranscriptieOndertitel Generator voor TikTokCallcenter TranscriptieReels Audio naar Tekst ToolMP3 naar Tekst TranscriberenWAV-bestand naar tekst transcriberenCapCut Spraak naar TekstCapCut Spraak naar TekstVoice to Text in EnglishAudio naar Tekst EngelsVoice to Text in SpanishVoice to Text in FrenchAudio naar Tekst FransVoice to Text in GermanAudio naar Tekst DuitsVoice to Text in JapaneseAudio naar Tekst JapansVoice to Text in KoreanAudio naar Tekst KoreaansVoice to Text in PortugueseVoice to Text in ArabicVoice to Text in ChineseVoice to Text in HindiVoice to Text in RussianWeb Voice Typing ToolVoice Typing Website