Whisper Large v3 Turbo sur de l’audio YouTube en anglais — benchmark du 29 mars 2026 (WER, CER, RTF)

Whisper Large v3 Turbo sur de l’audio YouTube en anglais — benchmark du 29 mars 2026 (WER, CER, RTF)

2026-03-29Test
Eric King

Eric King

Author


Cette note décrit une exécution à configuration fixe sur de l’audio en anglais d’environ 18 minutes tiré d’un téléversement YouTube. Le scoreur indique un WER ≈ 67,6 % avec une prédominance des suppressions (6 449 contre 60 substitutions, 0 insertions). Ce profil suggère que la transcription hypothèse s’aligne mal en couverture sur la référence — souvent observé lorsque la référence est la piste de sous-titres de la plateforme et que la sortie ASR reflète une autre segmentation ou une autre durée — les chiffres doivent donc être lus comme diagnostiques, et non comme un « score de précision » isolé et déjà « poli ».
Vidéo et texte de référence. Le WebVTT de référence (ref.vtt) est le texte des sous-titres fourni avec la vidéo source (exporté en WebVTT). L’hypothèse (model.vtt) est Whisper large-v3-turbo sur le même audio sous-jacent. Les métriques comparent ces sous-titres à cette exécution ASR — une base pratique pour « à quel point notre pipeline se rapproche de ce que YouTube diffuse comme sous-titres », et non une affirmation sur une vérité terrain vérifiée par des humains.

1. Pourquoi ce benchmark compte

La parole de type YouTube est omniprésente dans les flux réels : qualité de micro variable, fonds musicaux, coupures, longs monologues ou dialogues. Évaluer l’ASR avec les sous-titres réels de la plateforme comme référence répond à une question concrète : si nous exécutons notre propre pile Whisper sur le même audio, de combien le texte s’écarte-t-il de ce que les spectateurs voient déjà comme sous-titres ? C’est utile pour l’assurance qualité des sous-titres, la réutilisation de contenu et l’indexation de recherche — des domaines où « suffisamment bon » dépend du produit, mais où les chiffres doivent être reproductibles.

2. Configuration du test

Les valeurs ci-dessous proviennent de other.yaml et result.json pour ce cas (mode répertoire afin que les métadonnées YAML soient jointes à la sortie du scoreur).
FieldValue
SourceYouTube video (audio aligned to that upload)
Date (processing window)2026-03-29 (processtime-atcompleted-at in other.yaml)
LanguageEnglish
Whisper modellarge-v3-turbo
Audio duration (YAML label)17:39
Audio duration (scorer, from VTT)1059.88 s (≈ 17.7 minutes)
STT processing time175 s (sttProcessingTimeSeconds in result.json, from YAML timestamps)
RTF0.165 (from result.json)
Intervalle d’horloge murale dans le YAML : 2026-03-29 16:04:372026-03-29 16:07:32 (cohérent avec 175 s de temps de traitement).

3. Méthodologie d’évaluation

La référence et l’hypothèse sont des fichiers WebVTT. Le texte des cues est extrait, puis normalisé (casse, ponctuation, nettoyage léger) avant le score.
Alignement au niveau des mots
Les séquences de jetons sont alignées avec un programme dynamique de type Levenshtein ; le retour en arrière donne les substitutions (S), suppressions (D) et insertions (I) par rapport à la longueur de référence N.
[ \mathrm{WER} = \frac{S + D + I}{N}, \qquad \mathrm{Accuracy} = 1 - \mathrm{WER}. ]
Character Error Rate (CER)
Les espaces sont retirés ; la distance d’édition sur les caractères est la distance de Levenshtein au niveau caractère.
[ \mathrm{CER} = \frac{\text{Character edit distance}}{\text{Reference character count (no spaces)}}. ]
Real-Time Factor (RTF)
[ \mathrm{RTF} = \frac{\text{STT processing time}}{\text{Audio duration}}. ]
Un RTF strictement inférieur à 1 signifie un décodage plus rapide que le temps réel sur cette exécution.

4. Aperçu du modèle

Whisper large-v3-turbo vise une bonne qualité avec un débit amélioré par rapport aux variantes « large » plus lourdes (le comportement dépend de l’implémentation et du matériel). C’est un ASR multilingue à usage général, adapté aux brouillons de transcription, à la recherche et aux brouillons de sous-titres où la perfection littérale n’est pas supposée. Ce benchmark utilise une configuration de décodage enregistrée dans other.yaml ; il ne balaie pas les options de décodage, la VAD ni le post-traitement.

5. Résultats (depuis result.json)

Métriques exactes :
  • Nombre de mots de référence (N) : 9627
  • Substitutions (S) : 60
  • Suppressions (D) : 6449
  • Insertions (I) : 0
  • WER : 0.6761192479484782
  • Précision : 0.3238807520515218
  • Nombre de caractères de référence : 38334
  • Distance d’édition sur les caractères : 25696
  • CER : 0.6703187770647467
  • Durée audio (secondes) : 1059.8809999999999
  • Temps de traitement STT (secondes) : 175
  • RTF : 0.16511287587946197
  • Durée d’exécution du script d’évaluation (secondes) : 25.612
Arrondi pour la lecture
  • WER ≈ 67,6 % ; précision ≈ 32,4 %
  • CER ≈ 67,0 %
  • ~25,7k éditions de caractères sur ~38,3k caractères de référence
  • RTF ≈ 0,165× (environ plus rapide que le temps réel)

6. Analyse des motifs d’erreur

Les insertions sont nulles et les suppressions écrasent les substitutions (6449 contre 60). Ce n’est pas le profil habituel d’« ASR bruité avec des mots de remplissage en plus » ; cela indique de longs passages de texte de référence non appariés par l’hypothèse sous cet alignement — cohérent avec un décalage de longueur, une segmentation différente ou une référence couvrant plus de contenu que ce que l’ASR a entendu (par ex. fichier de sous-titres vs segment audio). CER ≈ 67 % renforce que l’écart est large, et non quelques échanges de mots.
Pour les équipes produit : ne pas interpréter cela comme « Whisper a mal entendu 68 % des mots » au sens courant tant que vous n’avez pas confirmé la même fenêtre audio, la même langue et une normalisation de texte comparable entre l’export des sous-titres et la sortie du modèle.

7. Points clés

  • Vitesse : RTF ≈ 0,17 est intéressant pour traiter par lots de longs clips.
  • Précision : ~68 % de WER n’est pas prêt à la publication sans relecture si vous avez besoin de citations fidèles.
  • Forme des erreurs : très suppressif, zéro insertion — auditer l’appariement et la couverture avant de régler finement le modèle.
  • Réalisme du scénario : ~18 minutes d’anglais continu issu d’une vraie source YouTube est plus représentatif que des extraits jouets, mais reste une vidéo et un réglage de modèle.
  • Choix de la référence : utiliser les sous-titres de la plateforme ancre le test à une base visible par le spectateur, qui peut différer d’une retranscription humaine.

8. Meilleur modèle pour ce scénario

Dans le périmètre restreint « large-v3-turbo sur ce clip, avec les sous-titres YouTube comme référence », l’exécution est une ligne de base documentée : elle fixe le débit (RTF) et l’écart quantitatif (WER/CER) pour des comparaisons ultérieures. Ce n’est pas l’affirmation que ce modèle est le meilleur pour tout le contenu YouTube en anglais.

9. Verdict final neutre

Pour des brouillons internes, des étiquettes thématiques ou une recherche approximative, un RTF faible peut rendre cette pile utilisable si les parties prenantes acceptent les taux d’erreur et valident les passages critiques.
Pour des citations littérales, la conformité ou des sous-titres critiques pour l’accessibilité, ~32 % de précision au niveau des mots et des erreurs très suppressives imposent une relecture humaine ou des corrections d’alignement. Relancez le scoreur après toute modification des entrées ; la méthodologie reste comparable.

Sources

Nom du dossier du cas {case-name} = 20260329 (miroir sous test-transcripts/ dans le dépôt lorsque vous publiez les ressources).
  • Vidéo d’origine (source audio) : https://www.youtube.com/watch?v=E73XCmLAFe8 — les sous-titres de référence sont les sous-titres fournis avec cette vidéo (exportés en ref.vtt).
  • Transcription de référence (VTT) : test-transcripts/{case-name}/ref.vtt
  • Transcription du modèle (VTT) : test-transcripts/{case-name}/model.vtt
  • Métadonnées d’exécution : test-transcripts/{case-name}/other.yaml
  • Métriques d’évaluation précalculées : test-transcripts/{case-name}/result.json
Le score utilise scripts/evaluate-vtt-metrics.js dans ce dépôt. Pour de longues transcriptions, lancez Node avec une limite de tas augmentée si besoin (par ex. NODE_OPTIONS=--max-old-space-size=8192).

Essayer gratuitement maintenant

Testez dès maintenant notre service IA pour la voix, l’audio et la vidéo. Vous bénéficiez d’une transcription vocale en texte très précise, de la traduction multilingue et d’une identification intelligente des locuteurs, mais aussi de la génération automatique de sous‑titres vidéo, de l’édition intelligente de contenu audiovisuel et d’analyses audio‑visuelles synchronisées. La solution couvre tous les cas d’usage : comptes‑rendus de réunion, création de vidéos courtes, production de podcasts, et bien plus encore. Lancez votre essai gratuit dès aujourd’hui !

Son à Texte en LigneSon à Texte GratuitConvertisseur Son à TexteSon à Texte MP3Son à Texte WAVSon à Texte avec HorodatageVoix en texte pour réunionsSound to Text Multi LanguageSon à Texte Sous-titresConvertir WAV en texteVoix en TexteVoix en Texte en LigneParole en texteConvertir MP3 en texteConvertir enregistrement vocal en texteSaisie Vocale en LigneVoix en Texte avec HorodatageVoix en Texte en Temps RéelVoix en Texte pour Audio LongVoix en Texte pour VidéoVoix en Texte pour YouTubeVoix en Texte pour Montage VidéoVoix en Texte pour Sous-titresVoix en Texte pour PodcastsVoix en Texte pour InterviewsAudio d'Entretien en TexteVoix en Texte pour EnregistrementsVoix en Texte pour RéunionsVoix en Texte pour CoursVoix en Texte pour NotesVoix en Texte MultilingueVoix en Texte PréciseVoix en Texte RapideAlternative Premiere Pro Voix en TexteAlternative DaVinci Voix en TexteAlternative VEED Voix en TexteAlternative InVideo Voix en TexteAlternative Otter.ai Voix en TexteAlternative Descript Voix en TexteAlternative Trint Voix en TexteAlternative Rev Voix en TexteAlternative Sonix Voix en TexteAlternative Happy Scribe Voix en TexteAlternative Zoom Voix en TexteAlternative Google Meet Voix en TexteAlternative Microsoft Teams Voix en TexteAlternative Fireflies.ai Voix en TexteAlternative Fathom Voix en TexteAlternative FlexClip Voix en TexteAlternative Kapwing Voix en TexteAlternative Canva Voix en TexteReconnaissance Vocale pour Audio LongVoix IA en TexteVoix en Texte GratuitVoix en Texte Sans PublicitéVoix en Texte pour Audio BruyantVoix en Texte avec TempsGénérer des Sous-titres depuis l'AudioTranscription de Podcasts en LigneTranscrire les Appels ClientsVoix TikTok vers TexteAudio TikTok vers TexteVoix YouTube en TexteAudio YouTube en TexteMémo Vocal en TexteMessage Vocal WhatsApp en TexteMessage Vocal Telegram en TexteTranscription d'Appel DiscordVoix Twitch en TexteVoix Skype en TexteVoix Messenger en TexteMessage Vocal LINE en TexteTranscrire les Vlogs en TexteConvertir l'Audio de Sermon en TexteConvertir la Parole en ÉcritureTraduire l'Audio en TexteConvertir les Notes Audio en TexteSaisie VocaleSaisie Vocale pour RéunionsSaisie Vocale pour YouTubeParler pour ÉcrireSaisie Sans MainsVoix en MotsParole en MotsParole en Texte en LigneOnline Transcription SoftwareParole en Texte pour RéunionsParole en Texte RapideReal Time Speech to TextLive Transcription AppParole en Texte pour TikTokSon en Texte pour TikTokParler en MotsParole en TexteTalk to Text FreeTalk to Text OnlineTalk to Text for YouTubeTalk to Text for SubtitlesTalk to Text for Content CreatorsTalk to Text for MeetingsAudio en SaisieSon en TexteOutil d'Écriture VocaleOutil d'Écriture par ParoleDictée VocaleOutil de Transcription JuridiqueOutil de Dictée MédicaleTranscription Audio JaponaiseTranscription de Réunions en CoréenOutil de Transcription de RéunionsAudio Réunion en TexteConvertisseur de Conférences en TexteAudio de Conférence en TexteTranscription Vidéo en TexteGénérateur de Sous-titres pour TikTokTranscription de Centre d'AppelsOutil Audio Reels vers TexteTranscrire MP3 en TexteTranscrire fichier WAV en texteCapCut Voix en TexteCapCut Voix en TexteVoice to Text in EnglishAudio en Texte AnglaisVoice to Text in SpanishVoice to Text in FrenchAudio en Texte FrançaisVoice to Text in GermanAudio en Texte AllemandVoice to Text in JapaneseAudio en Texte JaponaisVoice to Text in KoreanAudio en Texte CoréenVoice to Text in PortugueseVoice to Text in ArabicVoice to Text in ChineseVoice to Text in HindiVoice to Text in RussianWeb Voice Typing ToolVoice Typing Website