🎉 Nous sommes en ligne ! Tous les services sont gratuits pendant notre période d'essai—les plans tarifaires arrivent bientôt.

Whisper Medium sur audio YouTube en anglais — Benchmark du 30/03/2026 (WER, CER, RTF)

Whisper Medium sur audio YouTube en anglais — Benchmark du 30/03/2026 (WER, CER, RTF)

2026-03-31Test
Eric King

Eric King

Author


Cet article présente une exécution à configuration fixe sur un audio YouTube en anglais avec Whisper medium. Dans result.json, le score strict est WER 67,75% et Accuracy 32,25%, avec un profil d’erreur dominé par les suppressions (D=5722, S=68, I=0). Cela indique plutôt un écart de couverture/alignment entre la référence et l’hypothèse qu’un simple bruit lexical.
Video and reference text. Source video: https://www.youtube.com/watch?v=7J96ESznKMQ. The reference (ref.vtt) comes from the platform caption track, while model.vtt is the model output. So this benchmark measures agreement with platform captions (practical baseline), not a manually curated linguistic gold standard.

1. Why This Benchmark Matters

Long-form YouTube audio is a realistic ASR stress case: changing pace, edits, names, topic shifts, and mixed speaking styles. For subtitle QA, retrieval indexing, and content repurposing, this setup is more representative than short clean demos.
Using platform captions as reference also answers a practical product question: how far does our ASR output drift from what end users already see as subtitles? Even if captions are not perfect gold labels, this comparison is operationally useful and reproducible.

2. Testing Setup

Values below are taken from other.yaml and result.json in case 20260331.
FieldValue
SourceYouTube video
Date (processing window)2026-03-31 (processtime-atcompleted-at)
LanguageEnglish
Whisper modelmedium
Audio duration (YAML label)17:20
Audio duration (scorer / YAML parsed)1040 s (≈ 17.33 minutes)
STT processing time133 s
RTF0.1279
Wall-clock timestamps: 2026-03-31 19:20:562026-03-31 19:23:09, consistent with 133 seconds processing time.

3. Evaluation Methodology

Evaluation script used: scripts/evaluate-vtt-metrics.js.
The script reads ref.vtt and model.vtt, extracts plain cue text, normalizes tokens, and aligns reference/hypothesis with Levenshtein dynamic programming.
[ \mathrm{WER} = \frac{S + D + I}{N}, \qquad \mathrm{Accuracy} = 1 - \mathrm{WER} ]
[ \mathrm{CER} = \frac{\text{Character edit distance}}{\text{Reference character count (no spaces)}} ]
[ \mathrm{RTF} = \frac{\text{STT processing time}}{\text{Audio duration}} ]
The script outputs two views:
  • strictMetrics: default normalization
  • relaxedMetrics: additional normalization (quotes/number formatting)
This helps distinguish formatting noise from true lexical/coverage mismatch.

4. Model Overview

Whisper medium is a common speed/quality trade-off checkpoint in practical transcription stacks. It is often suitable for draft transcripts, indexing, and downstream NLP preprocessing, but still requires review for verbatim publishing or compliance-sensitive workflows.
This benchmark tests one fixed setup only (no decoder sweep, no custom post-correction, no domain lexicon boosting).

5. Results (From result.json)

Strict metrics (metrics / strictMetrics)
  • Reference word count (N): 8,546
  • Substitutions (S): 68
  • Deletions (D): 5,722
  • Insertions (I): 0
  • WER: 0.6775099461736485
  • Accuracy: 0.32249005382635154
  • Reference character count: 32,329
  • Character edit distance: 21,566
  • CER: 0.6670790930743296
  • Audio duration (seconds): 1,040
  • STT processing time (seconds): 133
  • RTF: 0.12788461538461537
  • Eval script runtime (seconds): 56.703
Relaxed metrics (relaxedMetrics)
  • WER: 0.6775099461736485
  • Accuracy: 0.32249005382635154
  • CER: 0.666760334707683
  • Character edit distance: 21,355
  • Reference character count: 32,028
Rounded interpretation
  • Strict WER ≈ 67.75%, Accuracy ≈ 32.25%, CER ≈ 66.71%
  • Relaxed WER ≈ 67.75%, Accuracy ≈ 32.25%, CER ≈ 66.68%
  • Small strict/relaxed gap indicates mismatch is not mainly punctuation/formatting noise.
  • RTF ≈ 0.128 (about 7.8× faster than real time)

6. Error Pattern Analysis

Two signals stand out:
  • Insertion = 0
  • Deletion >> substitution (5,722 vs 68)
This pattern usually means many reference words are not aligned to hypothesis tokens. Typical causes include segmentation mismatch, truncated hypothesis coverage, or reference captions containing spans not reflected in model output.
Because strict and relaxed results are almost identical, normalization tweaks are not the main driver; coverage/alignment is likely dominant.

7. Key Insights

  • Speed: RTF is comfortably below 1, so throughput is practical for batch processing.
  • Accuracy: ~68% WER is too high for quote-level publication without review.
  • Error mode: Deletion-heavy profile suggests checking pairing/coverage before hyperparameter tuning.
  • Method robustness: strict and relaxed metrics are close, improving interpretability.
  • Representativeness: ~17.3 minutes is meaningful long-form input, but still only one clip/one setup.

8. Best Model for This Scenario

Under the narrow scope “Whisper medium + this exact clip + this exact reference source,” the run is a transparent baseline for future A/B comparisons. It does not claim universal superiority across all English YouTube transcription scenarios.

9. Neutral Final Verdict

For draft, indexing, and topic extraction workflows, this setup can be operationally useful. For verbatim publishing, compliance records, or accessibility-critical subtitles, current agreement levels still imply mandatory human correction or a stronger setup.
Keep the evaluation method fixed (scripts/evaluate-vtt-metrics.js) when iterating models so improvements remain comparable.

Source Materials

  • Original audio (video): https://www.youtube.com/watch?v=7J96ESznKMQ
  • Reference transcript (VTT): test-transcripts/{case-name}/ref.vtt
  • Model transcript (VTT): test-transcripts/{case-name}/model.vtt
  • Run metadata: test-transcripts/{case-name}/other.yaml
  • Precomputed evaluation metrics: test-transcripts/{case-name}/result.json
{case-name} = 20260331. Evaluation script: scripts/evaluate-vtt-metrics.js.

Essayer gratuitement maintenant

Testez dès maintenant notre service IA pour la voix, l’audio et la vidéo. Vous bénéficiez d’une transcription vocale en texte très précise, de la traduction multilingue et d’une identification intelligente des locuteurs, mais aussi de la génération automatique de sous‑titres vidéo, de l’édition intelligente de contenu audiovisuel et d’analyses audio‑visuelles synchronisées. La solution couvre tous les cas d’usage : comptes‑rendus de réunion, création de vidéos courtes, production de podcasts, et bien plus encore. Lancez votre essai gratuit dès aujourd’hui !

Son à Texte en LigneSon à Texte GratuitConvertisseur Son à TexteSon à Texte MP3Son à Texte WAVSon à Texte avec HorodatageSound to Text for MeetingsSound to Text Multi LanguageSon à Texte Sous-titresConvertir WAV en texteVoix en TexteVoix en Texte en LigneParole en texteConvertir MP3 en texteConvertir enregistrement vocal en texteSaisie Vocale en LigneVoix en Texte avec HorodatageVoix en Texte en Temps RéelVoix en Texte pour Audio LongVoix en Texte pour VidéoVoix en Texte pour YouTubeVoix en Texte pour Montage VidéoVoix en Texte pour Sous-titresVoix en Texte pour PodcastsVoix en Texte pour InterviewsAudio d'Entretien en TexteVoix en Texte pour EnregistrementsVoix en Texte pour RéunionsVoix en Texte pour CoursVoix en Texte pour NotesVoix en Texte MultilingueVoix en Texte PréciseVoix en Texte RapideAlternative Premiere Pro Voix en TexteAlternative DaVinci Voix en TexteAlternative VEED Voix en TexteAlternative InVideo Voix en TexteAlternative Otter.ai Voix en TexteAlternative Descript Voix en TexteAlternative Trint Voix en TexteAlternative Rev Voix en TexteAlternative Sonix Voix en TexteAlternative Happy Scribe Voix en TexteAlternative Zoom Voix en TexteAlternative Google Meet Voix en TexteAlternative Microsoft Teams Voix en TexteAlternative Fireflies.ai Voix en TexteAlternative Fathom Voix en TexteAlternative FlexClip Voix en TexteAlternative Kapwing Voix en TexteAlternative Canva Voix en TexteReconnaissance Vocale pour Audio LongVoix IA en TexteVoix en Texte GratuitVoix en Texte Sans PublicitéVoix en Texte pour Audio BruyantVoix en Texte avec TempsGénérer des Sous-titres depuis l'AudioTranscription de Podcasts en LigneTranscrire les Appels ClientsVoix TikTok vers TexteAudio TikTok vers TexteVoix YouTube en TexteAudio YouTube en TexteMémo Vocal en TexteMessage Vocal WhatsApp en TexteMessage Vocal Telegram en TexteTranscription d'Appel DiscordVoix Twitch en TexteVoix Skype en TexteVoix Messenger en TexteMessage Vocal LINE en TexteTranscrire les Vlogs en TexteConvertir l'Audio de Sermon en TexteConvertir la Parole en ÉcritureTraduire l'Audio en TexteConvertir les Notes Audio en TexteSaisie VocaleSaisie Vocale pour RéunionsSaisie Vocale pour YouTubeParler pour ÉcrireSaisie Sans MainsVoix en MotsParole en MotsParole en Texte en LigneOnline Transcription SoftwareParole en Texte pour RéunionsParole en Texte RapideReal Time Speech to TextLive Transcription AppParole en Texte pour TikTokSon en Texte pour TikTokParler en MotsParole en TexteTalk to Text FreeTalk to Text OnlineTalk to Text for YouTubeTalk to Text for SubtitlesTalk to Text for Content CreatorsTalk to Text for MeetingsAudio en SaisieSon en TexteOutil d'Écriture VocaleOutil d'Écriture par ParoleDictée VocaleOutil de Transcription JuridiqueOutil de Dictée MédicaleTranscription Audio JaponaiseTranscription de Réunions en CoréenOutil de Transcription de RéunionsAudio Réunion en TexteConvertisseur de Conférences en TexteAudio de Conférence en TexteTranscription Vidéo en TexteGénérateur de Sous-titres pour TikTokTranscription de Centre d'AppelsOutil Audio Reels vers TexteTranscrire MP3 en TexteTranscrire fichier WAV en texteCapCut Voix en TexteCapCut Voix en TexteVoice to Text in EnglishAudio en Texte AnglaisVoice to Text in SpanishVoice to Text in FrenchAudio en Texte FrançaisVoice to Text in GermanAudio en Texte AllemandVoice to Text in JapaneseAudio en Texte JaponaisVoice to Text in KoreanAudio en Texte CoréenVoice to Text in PortugueseVoice to Text in ArabicVoice to Text in ChineseVoice to Text in HindiVoice to Text in RussianWeb Voice Typing ToolVoice Typing Website