
Whisper Large v3 Turbo sur une interview en anglais — benchmark du 28 mars 2026 (WER, CER, RTF)
2026-03-28Test
Eric King
Author
Cette note documente une exécution unique à configuration fixe sur de l’audio de type interview en anglais (~8,5 minutes). Le scoreur signale un taux d’erreur sur les mots proche de 69 %, avec des suppressions qui dominent le budget d’erreur (2192 suppressions contre 188 substitutions, 0 insertions). Ce profil indique en général que l’hypothèse couvre bien moins la référence qu’une transcription « bruitée mais complète » typique — les chiffres doivent donc être lus comme diagnostiques, avec une vérification manuelle que la sortie du modèle et la référence décrivent la même prise et segmentation.
Vidéo et texte de référence. L’audio testé provient d’une vidéo source (lien ci-dessous). Le WebVTT de référence (
ref.vtt) est la piste de sous-titres fournie avec cette vidéo — exportée ou enregistrée en WebVTT depuis les sous-titres de la plateforme — et non une transcription « or » rédigée indépendamment. L’hypothèse (model.vtt) est l’ASR Whisper large-v3-turbo sur le même audio. Les métriques comparent donc les sous-titres fournis par la plateforme à cette exécution ASR, une base pratique mais différente d’un score contre des transcriptions de recherche validées à la main.1. Pourquoi ce benchmark compte
L’audio d’interview sollicite l’ASR avec du chevauchement vocal, un rythme irrégulier, des noms et des chiffres — des conditions courantes en rédaction et en recherche. Publier l’identifiant du modèle, la langue, la durée, les horodatages et les métriques standard rend l’exécution comparable aux relances ou à d’autres pipelines ; l’objectif est la transparence, pas une promesse produit.
2. Configuration du test
Sauf mention contraire, les valeurs ci-dessous proviennent de
other.yaml et result.json pour ce cas.| Champ | Valeur |
|---|---|
| Date (fenêtre de traitement) | 2026-03-28 (voir processtime-at / completed-at dans other.yaml) |
| Scénario | Contenu de type interview en anglais (balise de langue : English) |
| Modèle Whisper | large-v3-turbo (whisper-model dans other.yaml) |
| Durée audio (YAML) | 08:25 (libellé 8 min 25 s temps réel) |
| Durée audio (scoreur) | 506.88 s (à partir de l’intervalle des cues du VTT de référence dans result.json) |
| Intervalle de traitement temps réel | processtime-at : 2026-03-28 09:56:40.204 → completed-at : 2026-03-28 09:57:57.000 |
| Temps de traitement STT dérivé | ≈ 76.8 s (différence entre les deux horodatages ci-dessus ; non stocké dans result.json car cette exécution utilisait le mode VTT explicite sans YAML joint à la sortie du scoreur) |
| RTF dérivé | ≈ 0.151 (temps de traitement ÷ 506.88 s de durée audio) |
Remarque :
result.json indique "yamlMeta": null pour cette exécution explicite à deux fichiers ; le RTF y est null. Le temps de traitement et le RTF dans cet article sont recalculés à partir de other.yaml pour rester cohérents avec la section méthodologie.3. Méthodologie d’évaluation
La référence et l’hypothèse sont des fichiers WebVTT. Le texte brut est extrait des cues (horodatages et indices retirés), puis normalisé (casse, ponctuation et typographie simple) avant le score.
Alignement au niveau mot
La référence et l’hypothèse sont alignées comme séquences de jetons. Un programme dynamique de type Levenshtein standard trouve un chemin de coût minimal entre les deux séquences de mots ; le retour arrière donne les décomptes de substitutions (S), suppressions (D) et insertions (I) par rapport à la longueur de référence N.
Taux d’erreur sur les mots (WER) et précision
Soient (S), (D) et (I) les décomptes de substitution, suppression et insertion, et (N) le nombre de mots de référence.
[
\mathrm{WER} = \frac{S + D + I}{N}, \qquad \mathrm{Accuracy} = 1 - \mathrm{WER}.
]
Taux d’erreur sur les caractères (CER)
Les espaces sont retirés des chaînes normalisées. La distance d’édition caractère est la distance de Levenshtein au niveau caractère ; le nombre de caractères de référence est la longueur de la chaîne de référence sans espaces.
[
\mathrm{CER} = \frac{\text{Character edit distance}}{\text{Reference character count}}.
]
Facteur temps réel (RTF)
[
\mathrm{RTF} = \frac{\text{Processing time (seconds)}}{\text{Audio duration (seconds)}}.
]
Un RTF inférieur à 1 signifie que le décodage a été plus rapide que le temps réel sur ce matériel/cette exécution.
4. Aperçu du modèle
Whisper large-v3-turbo appartient à la famille « large » et échange une partie du calcul contre le débit par rapport aux checkpoints large complets (le comportement exact dépend de l’implémentation et du matériel). C’est un ASR multilingue à usage général adapté aux brouillons et à l’indexation de recherche lorsque la fidélité parfaite n’est pas supposée. Ce test porte sur une configuration issue de
other.yaml ; pas de balayage de température, de découpage ni de VAD.5. Résultats (depuis result.json)
Valeurs exactes de l’objet de métriques précalculé :
- Nombre de mots de référence (N) : 3442
- Substitutions (S) : 188
- Suppressions (D) : 2192
- Insertions (I) : 0
- WER : 0.6914584543869843
- Précision : 0.3085415456130157
- Nombre de caractères de référence : 15790
- Distance d’édition caractère : 10494
- CER : 0.664597846738442
- Durée audio (secondes) : 506.88
- Temps de traitement STT (dans le JSON) :
null(voir la section 2 pour la durée dérivée du YAML) - RTF (dans le JSON) :
null(RTF dérivé ≈ 0.151 à partir des horodatages YAML) - Durée d’exécution du script d’évaluation : 3.11 s
Arrondi pour la lecture
- WER ≈ 69.1 % ; précision ≈ 30.9 %
- CER ≈ 66.5 %
- ~10.5k éditions de caractères sur ~15.8k caractères de référence
- RTF ≈ 0.15× (plus rapide que le temps réel sur cet extrait, en utilisant le temps de traitement dérivé du YAML)
6. Analyse du motif d’erreurs
Avec I = 0, l’hypothèse n’ajoute pas de mots parasites par rapport à cet alignement ; presque toute la masse d’erreur au niveau mot vient des suppressions et substitutions, et les suppressions sont d’un ordre de grandeur supérieures aux substitutions (2192 contre 188).
Interprétation pratique :
- Les profils riches en suppressions indiquent souvent des segments manquants dans l’hypothèse (gestion du silence, arrêt précoce, longueur de clip différente, ou référence plus longue que l’audio réellement transcrit).
- Zéro insertion est rare dans l’ASR réel désordonné ; associé à un WER extrême, c’est un signal pour vérifier l’appariement des données (même fichier, même langue, même édition de la référence) avant d’attribuer le score à la seule « qualité du modèle ».
Un CER ~66 % est cohérent avec de longs passages de texte qui ne correspondent pas entre référence et hypothèse — pas seulement des échanges de mots occasionnels.
7. Points clés
- Vitesse : Un RTF dérivé ≈ 0.15 suggère que la pile a terminé en une fraction du temps réel pour cet extrait — utile lorsque la latence compte, indépendamment du WER brut.
- Précision : Un WER ~69 % n’est pas suffisant pour des citations publiables ou des transcriptions de niveau juridique sans relecture humaine poussée.
- Forme des erreurs : Les suppressions dominent ; prioriser l’examen de la couverture et de l’alignement des segments avant d’ajuster les hyperparamètres de décodage.
- Limites d’un seul échantillon : Une interview et une configuration de modèle ne définissent pas la performance attendue en production sur tous les accents, codecs ou bruits.
- Reproductibilité : Conserver les quatre artefacts ensemble préserve un instantané figé.
8. Meilleur modèle pour ce scénario
Pour cet extrait et cette référence uniquement, Whisper large-v3-turbo est une ligne de base documentée : les horodatages décrivent le débit ; le WER/CER décrit l’écart par rapport à votre référence. Il n’est pas affirmé qu’il s’agit du meilleur modèle pour toutes les interviews en anglais.
9. Verdict final neutre
Pour des brouillons de notes, une recherche interne ou un indexage approximatif où les erreurs sont acceptables et la vitesse compte, un RTF faible et une transcription stockée peuvent rester utilisables avec des avertissements clairs.
Pour citer des participants, des flux sensibles à la conformité ou une publication d’archives, la précision lexicale ~31 % de cette exécution et le profil d’erreur riche en suppressions impliquent qu’il faut prévoir une relecture humaine ou une autre capture / alignement de référence tant que les scores ne s’améliorent pas sur des paires validées.
Relancer le scoreur après correction des problèmes de données ; la méthodologie reste comparable.
Sources
Nom du dossier du cas :
20260328 (préfixe de chemin du dépôt : test-transcripts/20260328/).- Vidéo d’origine (source audio) : Ajoutez l’URL canonique de la même vidéo dont les sous-titres ont servi de référence (par ex. lien de visionnage YouTube). L’audio traité pour l’ASR doit correspondre à cet envoi.
- Transcription de référence (VTT) :
test-transcripts/20260328/ref.vtt— sous-titres fournis avec la vidéo source, stockés en WebVTT pour le score. - Transcription du modèle (VTT) :
test-transcripts/20260328/model.vtt— sortie Whisper large-v3-turbo sur cet audio. - Métadonnées d’exécution :
test-transcripts/20260328/other.yaml - Métriques d’évaluation précalculées :
test-transcripts/20260328/result.json
L’évaluation a été produite avec
scripts/evaluate-vtt-metrics.js dans ce dépôt. Placez les fichiers ci-dessus sous test-transcripts/20260328/ pour reproduire les chiffres cités.