Whisper Large v3 Turbo sur une interview en anglais — benchmark du 28 mars 2026 (WER, CER, RTF)

Whisper Large v3 Turbo sur une interview en anglais — benchmark du 28 mars 2026 (WER, CER, RTF)

2026-03-28Test
Eric King

Eric King

Author


Cette note documente une exécution unique à configuration fixe sur de l’audio de type interview en anglais (~8,5 minutes). Le scoreur signale un taux d’erreur sur les mots proche de 69 %, avec des suppressions qui dominent le budget d’erreur (2192 suppressions contre 188 substitutions, 0 insertions). Ce profil indique en général que l’hypothèse couvre bien moins la référence qu’une transcription « bruitée mais complète » typique — les chiffres doivent donc être lus comme diagnostiques, avec une vérification manuelle que la sortie du modèle et la référence décrivent la même prise et segmentation.
Vidéo et texte de référence. L’audio testé provient d’une vidéo source (lien ci-dessous). Le WebVTT de référence (ref.vtt) est la piste de sous-titres fournie avec cette vidéo — exportée ou enregistrée en WebVTT depuis les sous-titres de la plateforme — et non une transcription « or » rédigée indépendamment. L’hypothèse (model.vtt) est l’ASR Whisper large-v3-turbo sur le même audio. Les métriques comparent donc les sous-titres fournis par la plateforme à cette exécution ASR, une base pratique mais différente d’un score contre des transcriptions de recherche validées à la main.

1. Pourquoi ce benchmark compte

L’audio d’interview sollicite l’ASR avec du chevauchement vocal, un rythme irrégulier, des noms et des chiffres — des conditions courantes en rédaction et en recherche. Publier l’identifiant du modèle, la langue, la durée, les horodatages et les métriques standard rend l’exécution comparable aux relances ou à d’autres pipelines ; l’objectif est la transparence, pas une promesse produit.

2. Configuration du test

Sauf mention contraire, les valeurs ci-dessous proviennent de other.yaml et result.json pour ce cas.
ChampValeur
Date (fenêtre de traitement)2026-03-28 (voir processtime-at / completed-at dans other.yaml)
ScénarioContenu de type interview en anglais (balise de langue : English)
Modèle Whisperlarge-v3-turbo (whisper-model dans other.yaml)
Durée audio (YAML)08:25 (libellé 8 min 25 s temps réel)
Durée audio (scoreur)506.88 s (à partir de l’intervalle des cues du VTT de référence dans result.json)
Intervalle de traitement temps réelprocesstime-at : 2026-03-28 09:56:40.204completed-at : 2026-03-28 09:57:57.000
Temps de traitement STT dérivé76.8 s (différence entre les deux horodatages ci-dessus ; non stocké dans result.json car cette exécution utilisait le mode VTT explicite sans YAML joint à la sortie du scoreur)
RTF dérivé0.151 (temps de traitement ÷ 506.88 s de durée audio)
Remarque : result.json indique "yamlMeta": null pour cette exécution explicite à deux fichiers ; le RTF y est null. Le temps de traitement et le RTF dans cet article sont recalculés à partir de other.yaml pour rester cohérents avec la section méthodologie.

3. Méthodologie d’évaluation

La référence et l’hypothèse sont des fichiers WebVTT. Le texte brut est extrait des cues (horodatages et indices retirés), puis normalisé (casse, ponctuation et typographie simple) avant le score.
Alignement au niveau mot
La référence et l’hypothèse sont alignées comme séquences de jetons. Un programme dynamique de type Levenshtein standard trouve un chemin de coût minimal entre les deux séquences de mots ; le retour arrière donne les décomptes de substitutions (S), suppressions (D) et insertions (I) par rapport à la longueur de référence N.
Taux d’erreur sur les mots (WER) et précision
Soient (S), (D) et (I) les décomptes de substitution, suppression et insertion, et (N) le nombre de mots de référence.
[ \mathrm{WER} = \frac{S + D + I}{N}, \qquad \mathrm{Accuracy} = 1 - \mathrm{WER}. ]
Taux d’erreur sur les caractères (CER)
Les espaces sont retirés des chaînes normalisées. La distance d’édition caractère est la distance de Levenshtein au niveau caractère ; le nombre de caractères de référence est la longueur de la chaîne de référence sans espaces.
[ \mathrm{CER} = \frac{\text{Character edit distance}}{\text{Reference character count}}. ]
Facteur temps réel (RTF)
[ \mathrm{RTF} = \frac{\text{Processing time (seconds)}}{\text{Audio duration (seconds)}}. ]
Un RTF inférieur à 1 signifie que le décodage a été plus rapide que le temps réel sur ce matériel/cette exécution.

4. Aperçu du modèle

Whisper large-v3-turbo appartient à la famille « large » et échange une partie du calcul contre le débit par rapport aux checkpoints large complets (le comportement exact dépend de l’implémentation et du matériel). C’est un ASR multilingue à usage général adapté aux brouillons et à l’indexation de recherche lorsque la fidélité parfaite n’est pas supposée. Ce test porte sur une configuration issue de other.yaml ; pas de balayage de température, de découpage ni de VAD.

5. Résultats (depuis result.json)

Valeurs exactes de l’objet de métriques précalculé :
  • Nombre de mots de référence (N) : 3442
  • Substitutions (S) : 188
  • Suppressions (D) : 2192
  • Insertions (I) : 0
  • WER : 0.6914584543869843
  • Précision : 0.3085415456130157
  • Nombre de caractères de référence : 15790
  • Distance d’édition caractère : 10494
  • CER : 0.664597846738442
  • Durée audio (secondes) : 506.88
  • Temps de traitement STT (dans le JSON) : null (voir la section 2 pour la durée dérivée du YAML)
  • RTF (dans le JSON) : null (RTF dérivé ≈ 0.151 à partir des horodatages YAML)
  • Durée d’exécution du script d’évaluation : 3.11 s
Arrondi pour la lecture
  • WER ≈ 69.1 % ; précision ≈ 30.9 %
  • CER ≈ 66.5 %
  • ~10.5k éditions de caractères sur ~15.8k caractères de référence
  • RTF ≈ 0.15× (plus rapide que le temps réel sur cet extrait, en utilisant le temps de traitement dérivé du YAML)

6. Analyse du motif d’erreurs

Avec I = 0, l’hypothèse n’ajoute pas de mots parasites par rapport à cet alignement ; presque toute la masse d’erreur au niveau mot vient des suppressions et substitutions, et les suppressions sont d’un ordre de grandeur supérieures aux substitutions (2192 contre 188).
Interprétation pratique :
  • Les profils riches en suppressions indiquent souvent des segments manquants dans l’hypothèse (gestion du silence, arrêt précoce, longueur de clip différente, ou référence plus longue que l’audio réellement transcrit).
  • Zéro insertion est rare dans l’ASR réel désordonné ; associé à un WER extrême, c’est un signal pour vérifier l’appariement des données (même fichier, même langue, même édition de la référence) avant d’attribuer le score à la seule « qualité du modèle ».
Un CER ~66 % est cohérent avec de longs passages de texte qui ne correspondent pas entre référence et hypothèse — pas seulement des échanges de mots occasionnels.

7. Points clés

  • Vitesse : Un RTF dérivé ≈ 0.15 suggère que la pile a terminé en une fraction du temps réel pour cet extrait — utile lorsque la latence compte, indépendamment du WER brut.
  • Précision : Un WER ~69 % n’est pas suffisant pour des citations publiables ou des transcriptions de niveau juridique sans relecture humaine poussée.
  • Forme des erreurs : Les suppressions dominent ; prioriser l’examen de la couverture et de l’alignement des segments avant d’ajuster les hyperparamètres de décodage.
  • Limites d’un seul échantillon : Une interview et une configuration de modèle ne définissent pas la performance attendue en production sur tous les accents, codecs ou bruits.
  • Reproductibilité : Conserver les quatre artefacts ensemble préserve un instantané figé.

8. Meilleur modèle pour ce scénario

Pour cet extrait et cette référence uniquement, Whisper large-v3-turbo est une ligne de base documentée : les horodatages décrivent le débit ; le WER/CER décrit l’écart par rapport à votre référence. Il n’est pas affirmé qu’il s’agit du meilleur modèle pour toutes les interviews en anglais.

9. Verdict final neutre

Pour des brouillons de notes, une recherche interne ou un indexage approximatif où les erreurs sont acceptables et la vitesse compte, un RTF faible et une transcription stockée peuvent rester utilisables avec des avertissements clairs.
Pour citer des participants, des flux sensibles à la conformité ou une publication d’archives, la précision lexicale ~31 % de cette exécution et le profil d’erreur riche en suppressions impliquent qu’il faut prévoir une relecture humaine ou une autre capture / alignement de référence tant que les scores ne s’améliorent pas sur des paires validées.
Relancer le scoreur après correction des problèmes de données ; la méthodologie reste comparable.

Sources

Nom du dossier du cas : 20260328 (préfixe de chemin du dépôt : test-transcripts/20260328/).
  • Vidéo d’origine (source audio) : Ajoutez l’URL canonique de la même vidéo dont les sous-titres ont servi de référence (par ex. lien de visionnage YouTube). L’audio traité pour l’ASR doit correspondre à cet envoi.
  • Transcription de référence (VTT) : test-transcripts/20260328/ref.vttsous-titres fournis avec la vidéo source, stockés en WebVTT pour le score.
  • Transcription du modèle (VTT) : test-transcripts/20260328/model.vtt — sortie Whisper large-v3-turbo sur cet audio.
  • Métadonnées d’exécution : test-transcripts/20260328/other.yaml
  • Métriques d’évaluation précalculées : test-transcripts/20260328/result.json
L’évaluation a été produite avec scripts/evaluate-vtt-metrics.js dans ce dépôt. Placez les fichiers ci-dessus sous test-transcripts/20260328/ pour reproduire les chiffres cités.

Essayer gratuitement maintenant

Testez dès maintenant notre service IA pour la voix, l’audio et la vidéo. Vous bénéficiez d’une transcription vocale en texte très précise, de la traduction multilingue et d’une identification intelligente des locuteurs, mais aussi de la génération automatique de sous‑titres vidéo, de l’édition intelligente de contenu audiovisuel et d’analyses audio‑visuelles synchronisées. La solution couvre tous les cas d’usage : comptes‑rendus de réunion, création de vidéos courtes, production de podcasts, et bien plus encore. Lancez votre essai gratuit dès aujourd’hui !

Son à Texte en LigneSon à Texte GratuitConvertisseur Son à TexteSon à Texte MP3Son à Texte WAVSon à Texte avec HorodatageVoix en texte pour réunionsSound to Text Multi LanguageSon à Texte Sous-titresConvertir WAV en texteVoix en TexteVoix en Texte en LigneParole en texteConvertir MP3 en texteConvertir enregistrement vocal en texteSaisie Vocale en LigneVoix en Texte avec HorodatageVoix en Texte en Temps RéelVoix en Texte pour Audio LongVoix en Texte pour VidéoVoix en Texte pour YouTubeVoix en Texte pour Montage VidéoVoix en Texte pour Sous-titresVoix en Texte pour PodcastsVoix en Texte pour InterviewsAudio d'Entretien en TexteVoix en Texte pour EnregistrementsVoix en Texte pour RéunionsVoix en Texte pour CoursVoix en Texte pour NotesVoix en Texte MultilingueVoix en Texte PréciseVoix en Texte RapideAlternative Premiere Pro Voix en TexteAlternative DaVinci Voix en TexteAlternative VEED Voix en TexteAlternative InVideo Voix en TexteAlternative Otter.ai Voix en TexteAlternative Descript Voix en TexteAlternative Trint Voix en TexteAlternative Rev Voix en TexteAlternative Sonix Voix en TexteAlternative Happy Scribe Voix en TexteAlternative Zoom Voix en TexteAlternative Google Meet Voix en TexteAlternative Microsoft Teams Voix en TexteAlternative Fireflies.ai Voix en TexteAlternative Fathom Voix en TexteAlternative FlexClip Voix en TexteAlternative Kapwing Voix en TexteAlternative Canva Voix en TexteReconnaissance Vocale pour Audio LongVoix IA en TexteVoix en Texte GratuitVoix en Texte Sans PublicitéVoix en Texte pour Audio BruyantVoix en Texte avec TempsGénérer des Sous-titres depuis l'AudioTranscription de Podcasts en LigneTranscrire les Appels ClientsVoix TikTok vers TexteAudio TikTok vers TexteVoix YouTube en TexteAudio YouTube en TexteMémo Vocal en TexteMessage Vocal WhatsApp en TexteMessage Vocal Telegram en TexteTranscription d'Appel DiscordVoix Twitch en TexteVoix Skype en TexteVoix Messenger en TexteMessage Vocal LINE en TexteTranscrire les Vlogs en TexteConvertir l'Audio de Sermon en TexteConvertir la Parole en ÉcritureTraduire l'Audio en TexteConvertir les Notes Audio en TexteSaisie VocaleSaisie Vocale pour RéunionsSaisie Vocale pour YouTubeParler pour ÉcrireSaisie Sans MainsVoix en MotsParole en MotsParole en Texte en LigneOnline Transcription SoftwareParole en Texte pour RéunionsParole en Texte RapideReal Time Speech to TextLive Transcription AppParole en Texte pour TikTokSon en Texte pour TikTokParler en MotsParole en TexteTalk to Text FreeTalk to Text OnlineTalk to Text for YouTubeTalk to Text for SubtitlesTalk to Text for Content CreatorsTalk to Text for MeetingsAudio en SaisieSon en TexteOutil d'Écriture VocaleOutil d'Écriture par ParoleDictée VocaleOutil de Transcription JuridiqueOutil de Dictée MédicaleTranscription Audio JaponaiseTranscription de Réunions en CoréenOutil de Transcription de RéunionsAudio Réunion en TexteConvertisseur de Conférences en TexteAudio de Conférence en TexteTranscription Vidéo en TexteGénérateur de Sous-titres pour TikTokTranscription de Centre d'AppelsOutil Audio Reels vers TexteTranscrire MP3 en TexteTranscrire fichier WAV en texteCapCut Voix en TexteCapCut Voix en TexteVoice to Text in EnglishAudio en Texte AnglaisVoice to Text in SpanishVoice to Text in FrenchAudio en Texte FrançaisVoice to Text in GermanAudio en Texte AllemandVoice to Text in JapaneseAudio en Texte JaponaisVoice to Text in KoreanAudio en Texte CoréenVoice to Text in PortugueseVoice to Text in ArabicVoice to Text in ChineseVoice to Text in HindiVoice to Text in RussianWeb Voice Typing ToolVoice Typing Website