
Whisper Large v3 Turbo sur de l’audio YouTube en anglais — benchmark du 29 mars 2026 (WER, CER, RTF)
2026-03-29Test
Eric King
Author
Cette note décrit une exécution à configuration fixe sur de l’audio en anglais d’environ 18 minutes tiré d’un téléversement YouTube. Le scoreur indique un WER ≈ 67,6 % avec une prédominance des suppressions (6 449 contre 60 substitutions, 0 insertions). Ce profil suggère que la transcription hypothèse s’aligne mal en couverture sur la référence — souvent observé lorsque la référence est la piste de sous-titres de la plateforme et que la sortie ASR reflète une autre segmentation ou une autre durée — les chiffres doivent donc être lus comme diagnostiques, et non comme un « score de précision » isolé et déjà « poli ».
Vidéo et texte de référence. Le WebVTT de référence (
ref.vtt) est le texte des sous-titres fourni avec la vidéo source (exporté en WebVTT). L’hypothèse (model.vtt) est Whisper large-v3-turbo sur le même audio sous-jacent. Les métriques comparent ces sous-titres à cette exécution ASR — une base pratique pour « à quel point notre pipeline se rapproche de ce que YouTube diffuse comme sous-titres », et non une affirmation sur une vérité terrain vérifiée par des humains.1. Pourquoi ce benchmark compte
La parole de type YouTube est omniprésente dans les flux réels : qualité de micro variable, fonds musicaux, coupures, longs monologues ou dialogues. Évaluer l’ASR avec les sous-titres réels de la plateforme comme référence répond à une question concrète : si nous exécutons notre propre pile Whisper sur le même audio, de combien le texte s’écarte-t-il de ce que les spectateurs voient déjà comme sous-titres ? C’est utile pour l’assurance qualité des sous-titres, la réutilisation de contenu et l’indexation de recherche — des domaines où « suffisamment bon » dépend du produit, mais où les chiffres doivent être reproductibles.
2. Configuration du test
Les valeurs ci-dessous proviennent de
other.yaml et result.json pour ce cas (mode répertoire afin que les métadonnées YAML soient jointes à la sortie du scoreur).| Field | Value |
|---|---|
| Source | YouTube video (audio aligned to that upload) |
| Date (processing window) | 2026-03-29 (processtime-at → completed-at in other.yaml) |
| Language | English |
| Whisper model | large-v3-turbo |
| Audio duration (YAML label) | 17:39 |
| Audio duration (scorer, from VTT) | 1059.88 s (≈ 17.7 minutes) |
| STT processing time | 175 s (sttProcessingTimeSeconds in result.json, from YAML timestamps) |
| RTF | 0.165 (from result.json) |
Intervalle d’horloge murale dans le YAML : 2026-03-29 16:04:37 → 2026-03-29 16:07:32 (cohérent avec 175 s de temps de traitement).
3. Méthodologie d’évaluation
La référence et l’hypothèse sont des fichiers WebVTT. Le texte des cues est extrait, puis normalisé (casse, ponctuation, nettoyage léger) avant le score.
Alignement au niveau des mots
Les séquences de jetons sont alignées avec un programme dynamique de type Levenshtein ; le retour en arrière donne les substitutions (S), suppressions (D) et insertions (I) par rapport à la longueur de référence N.
[
\mathrm{WER} = \frac{S + D + I}{N}, \qquad \mathrm{Accuracy} = 1 - \mathrm{WER}.
]
Character Error Rate (CER)
Les espaces sont retirés ; la distance d’édition sur les caractères est la distance de Levenshtein au niveau caractère.
[
\mathrm{CER} = \frac{\text{Character edit distance}}{\text{Reference character count (no spaces)}}.
]
Real-Time Factor (RTF)
[
\mathrm{RTF} = \frac{\text{STT processing time}}{\text{Audio duration}}.
]
Un RTF strictement inférieur à 1 signifie un décodage plus rapide que le temps réel sur cette exécution.
4. Aperçu du modèle
Whisper large-v3-turbo vise une bonne qualité avec un débit amélioré par rapport aux variantes « large » plus lourdes (le comportement dépend de l’implémentation et du matériel). C’est un ASR multilingue à usage général, adapté aux brouillons de transcription, à la recherche et aux brouillons de sous-titres où la perfection littérale n’est pas supposée. Ce benchmark utilise une configuration de décodage enregistrée dans
other.yaml ; il ne balaie pas les options de décodage, la VAD ni le post-traitement.5. Résultats (depuis result.json)
Métriques exactes :
- Nombre de mots de référence (N) : 9627
- Substitutions (S) : 60
- Suppressions (D) : 6449
- Insertions (I) : 0
- WER : 0.6761192479484782
- Précision : 0.3238807520515218
- Nombre de caractères de référence : 38334
- Distance d’édition sur les caractères : 25696
- CER : 0.6703187770647467
- Durée audio (secondes) : 1059.8809999999999
- Temps de traitement STT (secondes) : 175
- RTF : 0.16511287587946197
- Durée d’exécution du script d’évaluation (secondes) : 25.612
Arrondi pour la lecture
- WER ≈ 67,6 % ; précision ≈ 32,4 %
- CER ≈ 67,0 %
- ~25,7k éditions de caractères sur ~38,3k caractères de référence
- RTF ≈ 0,165× (environ 6× plus rapide que le temps réel)
6. Analyse des motifs d’erreur
Les insertions sont nulles et les suppressions écrasent les substitutions (6449 contre 60). Ce n’est pas le profil habituel d’« ASR bruité avec des mots de remplissage en plus » ; cela indique de longs passages de texte de référence non appariés par l’hypothèse sous cet alignement — cohérent avec un décalage de longueur, une segmentation différente ou une référence couvrant plus de contenu que ce que l’ASR a entendu (par ex. fichier de sous-titres vs segment audio). CER ≈ 67 % renforce que l’écart est large, et non quelques échanges de mots.
Pour les équipes produit : ne pas interpréter cela comme « Whisper a mal entendu 68 % des mots » au sens courant tant que vous n’avez pas confirmé la même fenêtre audio, la même langue et une normalisation de texte comparable entre l’export des sous-titres et la sortie du modèle.
7. Points clés
- Vitesse : RTF ≈ 0,17 est intéressant pour traiter par lots de longs clips.
- Précision : ~68 % de WER n’est pas prêt à la publication sans relecture si vous avez besoin de citations fidèles.
- Forme des erreurs : très suppressif, zéro insertion — auditer l’appariement et la couverture avant de régler finement le modèle.
- Réalisme du scénario : ~18 minutes d’anglais continu issu d’une vraie source YouTube est plus représentatif que des extraits jouets, mais reste une vidéo et un réglage de modèle.
- Choix de la référence : utiliser les sous-titres de la plateforme ancre le test à une base visible par le spectateur, qui peut différer d’une retranscription humaine.
8. Meilleur modèle pour ce scénario
Dans le périmètre restreint « large-v3-turbo sur ce clip, avec les sous-titres YouTube comme référence », l’exécution est une ligne de base documentée : elle fixe le débit (RTF) et l’écart quantitatif (WER/CER) pour des comparaisons ultérieures. Ce n’est pas l’affirmation que ce modèle est le meilleur pour tout le contenu YouTube en anglais.
9. Verdict final neutre
Pour des brouillons internes, des étiquettes thématiques ou une recherche approximative, un RTF faible peut rendre cette pile utilisable si les parties prenantes acceptent les taux d’erreur et valident les passages critiques.
Pour des citations littérales, la conformité ou des sous-titres critiques pour l’accessibilité, ~32 % de précision au niveau des mots et des erreurs très suppressives imposent une relecture humaine ou des corrections d’alignement. Relancez le scoreur après toute modification des entrées ; la méthodologie reste comparable.
Sources
Nom du dossier du cas
{case-name} = 20260329 (miroir sous test-transcripts/ dans le dépôt lorsque vous publiez les ressources).- Vidéo d’origine (source audio) : https://www.youtube.com/watch?v=E73XCmLAFe8 — les sous-titres de référence sont les sous-titres fournis avec cette vidéo (exportés en
ref.vtt). - Transcription de référence (VTT) :
test-transcripts/{case-name}/ref.vtt - Transcription du modèle (VTT) :
test-transcripts/{case-name}/model.vtt - Métadonnées d’exécution :
test-transcripts/{case-name}/other.yaml - Métriques d’évaluation précalculées :
test-transcripts/{case-name}/result.json
Le score utilise
scripts/evaluate-vtt-metrics.js dans ce dépôt. Pour de longues transcriptions, lancez Node avec une limite de tas augmentée si besoin (par ex. NODE_OPTIONS=--max-old-space-size=8192).