Whisper Large v3 Turbo sur de l’audio YouTube en anglais — benchmark du 29 mars 2026 (WER, CER, RTF)

Cette note décrit une exécution à configuration fixe sur de l’audio en anglais d’environ 18 minutes tiré d’un téléversement YouTube. Le scoreur indique un WER ≈ 67,6 % avec une prédominance des suppressions (6 449 contre 60 substitutions, 0 insertions). Ce profil suggère que la transcription hypothèse s’aligne mal en couverture sur la référence — souvent observé lorsque la référence est la piste de sous-titres de la plateforme et que la sortie ASR reflète une autre segmentation ou une autre durée — les chiffres doivent donc être lus comme diagnostiques, et non comme un « score de précision » isolé et déjà « poli ».

Vidéo et texte de référence. Le WebVTT de référence (ref.vtt) est le texte des sous-titres fourni avec la vidéo source (exporté en WebVTT). L’hypothèse (model.vtt) est Whisper large-v3-turbo sur le même audio sous-jacent. Les métriques comparent ces sous-titres à cette exécution ASR — une base pratique pour « à quel point notre pipeline se rapproche de ce que YouTube diffuse comme sous-titres », et non une affirmation sur une vérité terrain vérifiée par des humains.

1. Pourquoi ce benchmark compte

La parole de type YouTube est omniprésente dans les flux réels : qualité de micro variable, fonds musicaux, coupures, longs monologues ou dialogues. Évaluer l’ASR avec les sous-titres réels de la plateforme comme référence répond à une question concrète : si nous exécutons notre propre pile Whisper sur le même audio, de combien le texte s’écarte-t-il de ce que les spectateurs voient déjà comme sous-titres ? C’est utile pour l’assurance qualité des sous-titres, la réutilisation de contenu et l’indexation de recherche — des domaines où « suffisamment bon » dépend du produit, mais où les chiffres doivent être reproductibles.

2. Configuration du test

Les valeurs ci-dessous proviennent de other.yaml et result.json pour ce cas (mode répertoire afin que les métadonnées YAML soient jointes à la sortie du scoreur).

Field	Value
Source	YouTube video (audio aligned to that upload)
Date (processing window)	2026-03-29 (`processtime-at` → `completed-at` in `other.yaml`)
Language	English
Whisper model	large-v3-turbo
Audio duration (YAML label)	17:39
Audio duration (scorer, from VTT)	1059.88 s (≈ 17.7 minutes)
STT processing time	175 s (`sttProcessingTimeSeconds` in `result.json`, from YAML timestamps)
RTF	0.165 (from `result.json`)

Intervalle d’horloge murale dans le YAML : 2026-03-29 16:04:37 → 2026-03-29 16:07:32 (cohérent avec 175 s de temps de traitement).

3. Méthodologie d’évaluation

La référence et l’hypothèse sont des fichiers WebVTT. Le texte des cues est extrait, puis normalisé (casse, ponctuation, nettoyage léger) avant le score.

Alignement au niveau des mots

Les séquences de jetons sont alignées avec un programme dynamique de type Levenshtein ; le retour en arrière donne les substitutions (S), suppressions (D) et insertions (I) par rapport à la longueur de référence N.

[ \mathrm{WER} = \frac{S + D + I}{N}, \qquad \mathrm{Accuracy} = 1 - \mathrm{WER}. ]

Character Error Rate (CER)

Les espaces sont retirés ; la distance d’édition sur les caractères est la distance de Levenshtein au niveau caractère.

[ \mathrm{CER} = \frac{\text{Character edit distance}}{\text{Reference character count (no spaces)}}. ]

Real-Time Factor (RTF)

[ \mathrm{RTF} = \frac{\text{STT processing time}}{\text{Audio duration}}. ]

Un RTF strictement inférieur à 1 signifie un décodage plus rapide que le temps réel sur cette exécution.

4. Aperçu du modèle

Whisper large-v3-turbo vise une bonne qualité avec un débit amélioré par rapport aux variantes « large » plus lourdes (le comportement dépend de l’implémentation et du matériel). C’est un ASR multilingue à usage général, adapté aux brouillons de transcription, à la recherche et aux brouillons de sous-titres où la perfection littérale n’est pas supposée. Ce benchmark utilise une configuration de décodage enregistrée dans other.yaml ; il ne balaie pas les options de décodage, la VAD ni le post-traitement.

5. Résultats (depuis `result.json`)

Métriques exactes :

Nombre de mots de référence (N) : 9627
Substitutions (S) : 60
Suppressions (D) : 6449
Insertions (I) : 0
WER : 0.6761192479484782
Précision : 0.3238807520515218
Nombre de caractères de référence : 38334
Distance d’édition sur les caractères : 25696
CER : 0.6703187770647467
Durée audio (secondes) : 1059.8809999999999
Temps de traitement STT (secondes) : 175
RTF : 0.16511287587946197
Durée d’exécution du script d’évaluation (secondes) : 25.612

Arrondi pour la lecture

WER ≈ 67,6 % ; précision ≈ 32,4 %
CER ≈ 67,0 %
~25,7k éditions de caractères sur ~38,3k caractères de référence
RTF ≈ 0,165× (environ 6× plus rapide que le temps réel)

6. Analyse des motifs d’erreur

Les insertions sont nulles et les suppressions écrasent les substitutions (6449 contre 60). Ce n’est pas le profil habituel d’« ASR bruité avec des mots de remplissage en plus » ; cela indique de longs passages de texte de référence non appariés par l’hypothèse sous cet alignement — cohérent avec un décalage de longueur, une segmentation différente ou une référence couvrant plus de contenu que ce que l’ASR a entendu (par ex. fichier de sous-titres vs segment audio). CER ≈ 67 % renforce que l’écart est large, et non quelques échanges de mots.

Pour les équipes produit : ne pas interpréter cela comme « Whisper a mal entendu 68 % des mots » au sens courant tant que vous n’avez pas confirmé la même fenêtre audio, la même langue et une normalisation de texte comparable entre l’export des sous-titres et la sortie du modèle.

7. Points clés

Vitesse : RTF ≈ 0,17 est intéressant pour traiter par lots de longs clips.
Précision : ~68 % de WER n’est pas prêt à la publication sans relecture si vous avez besoin de citations fidèles.
Forme des erreurs : très suppressif, zéro insertion — auditer l’appariement et la couverture avant de régler finement le modèle.
Réalisme du scénario : ~18 minutes d’anglais continu issu d’une vraie source YouTube est plus représentatif que des extraits jouets, mais reste une vidéo et un réglage de modèle.
Choix de la référence : utiliser les sous-titres de la plateforme ancre le test à une base visible par le spectateur, qui peut différer d’une retranscription humaine.

8. Meilleur modèle pour ce scénario

Dans le périmètre restreint « large-v3-turbo sur ce clip, avec les sous-titres YouTube comme référence », l’exécution est une ligne de base documentée : elle fixe le débit (RTF) et l’écart quantitatif (WER/CER) pour des comparaisons ultérieures. Ce n’est pas l’affirmation que ce modèle est le meilleur pour tout le contenu YouTube en anglais.

9. Verdict final neutre

Pour des brouillons internes, des étiquettes thématiques ou une recherche approximative, un RTF faible peut rendre cette pile utilisable si les parties prenantes acceptent les taux d’erreur et valident les passages critiques.

Pour des citations littérales, la conformité ou des sous-titres critiques pour l’accessibilité, ~32 % de précision au niveau des mots et des erreurs très suppressives imposent une relecture humaine ou des corrections d’alignement. Relancez le scoreur après toute modification des entrées ; la méthodologie reste comparable.

Sources

Nom du dossier du cas {case-name} = 20260329 (miroir sous test-transcripts/ dans le dépôt lorsque vous publiez les ressources).

Vidéo d’origine (source audio) : https://www.youtube.com/watch?v=E73XCmLAFe8 — les sous-titres de référence sont les sous-titres fournis avec cette vidéo (exportés en ref.vtt).
Transcription de référence (VTT) : test-transcripts/{case-name}/ref.vtt
Transcription du modèle (VTT) : test-transcripts/{case-name}/model.vtt
Métadonnées d’exécution : test-transcripts/{case-name}/other.yaml
Métriques d’évaluation précalculées : test-transcripts/{case-name}/result.json

Le score utilise scripts/evaluate-vtt-metrics.js dans ce dépôt. Pour de longues transcriptions, lancez Node avec une limite de tas augmentée si besoin (par ex. NODE_OPTIONS=--max-old-space-size=8192).

Whisper Large v3 Turbo sur de l’audio YouTube en anglais — benchmark du 29 mars 2026 (WER, CER, RTF)

1. Pourquoi ce benchmark compte

2. Configuration du test

3. Méthodologie d’évaluation

4. Aperçu du modèle

5. Résultats (depuis `result.json`)

6. Analyse des motifs d’erreur

7. Points clés

8. Meilleur modèle pour ce scénario

9. Verdict final neutre

Sources

Articles liés

Whisper Medium sur audio YouTube en anglais — Benchmark du 30/03/2026 (WER, CER, RTF)

Whisper Medium sur audio YouTube en anglais — Benchmark du 30/03/2026 (WER, CER, RTF)

Whisper Large v3 Turbo sur une interview en anglais — benchmark du 28 mars 2026 (WER, CER, RTF)

Essayer gratuitement maintenant

Whisper Large v3 Turbo sur de l’audio YouTube en anglais — benchmark du 29 mars 2026 (WER, CER, RTF)

1. Pourquoi ce benchmark compte

2. Configuration du test

3. Méthodologie d’évaluation

4. Aperçu du modèle

5. Résultats (depuis result.json)

6. Analyse des motifs d’erreur

7. Points clés

8. Meilleur modèle pour ce scénario

9. Verdict final neutre

Sources

Articles liés

Whisper Medium sur audio YouTube en anglais — Benchmark du 30/03/2026 (WER, CER, RTF)

Whisper Medium sur audio YouTube en anglais — Benchmark du 30/03/2026 (WER, CER, RTF)

Whisper Large v3 Turbo sur une interview en anglais — benchmark du 28 mars 2026 (WER, CER, RTF)

Essayer gratuitement maintenant

5. Résultats (depuis `result.json`)