Comprendre la qualité de la reconnaissance vocale : WER et CER expliqués

Comprendre la qualité de la reconnaissance vocale : WER et CER expliqués

Eric King

Eric King

Author


La reconnaissance vocale (Speech-to-Text, STT), aussi appelée reconnaissance automatique de la parole (ASR), est devenue une capacité centrale des applications d’IA modernes : assistants vocaux, analytique des centres d’appels, appareils intelligents, sous-titrage automatique, et bien plus.
À mesure qu’elle se répand dans les secteurs d’activité, une question revient souvent :
Comment mesurer la qualité de la sortie Speech-to-Text ?
Deux métriques dominent le domaine :
  • WER (Word Error Rate)
  • CER (Character Error Rate)
Malgré leur simplicité, elles influencent directement l’évaluation des modèles, la comparaison des moteurs et le suivi des performances en production. Cet article décrypte leur sens, le moment où les utiliser et comment les interpréter concrètement.

Qu’est-ce que le WER (Word Error Rate) ?

Le WER est la métrique la plus utilisée pour évaluer la reconnaissance vocale dans les langues à frontières de mots nettes, comme l’anglais, l’espagnol, l’allemand ou le français.
Il mesure le nombre d’erreurs dans le texte transcrit par rapport à une transcription de référence.

Formule

WER = (S + D + I) / N
Où :
  • S — Substitutions (un mot est remplacé par un mot incorrect)
  • D — Suppressions (un mot de la référence est absent de l’hypothèse)
  • I — Insertions (un mot en trop dans l’hypothèse par rapport à la référence)
  • N — Nombre total de mots dans le texte de référence

Seuils de WER pour l’interprétation

  • 0 % → transcription parfaite
  • 10–20 % → acceptable pour de nombreuses tâches industrielles
  • 20–40 % → typique dans des environnements bruyants ou avec accent marqué
  • 40 %+ → qualité de reconnaissance médiocre

Exemple

Référence : "The quick brown fox jumps over the lazy dog"
Hypothèse : "The quick brown fox jump over lazy dog"
Erreurs :
  • Substitution (« jumps » → « jump »)
  • Suppression (« the »)
  • 0 insertion
Calcul :
WER = (1 + 1 + 0) / 9 = 22.2%

Qu’est-ce que le CER (Character Error Rate) ?

Le CER évalue la précision de la transcription au niveau des caractères plutôt que des mots.
Cette métrique est surtout importante pour :
  • le chinois, le japonais, le coréen (langues sans espacement naturel entre les mots) ;
  • l’OCR (reconnaissance de texte dans les images) ;
  • les modèles qui exigent une évaluation très fine.

Formule

CER = (S + D + I) / N_characters
Les composantes (S, D, I) désignent les substitutions, suppressions et insertions au niveau caractère, et N_characters est le nombre total de caractères dans le texte de référence.
En comptant chaque caractère individuellement, le CER peut mettre en évidence des erreurs que le WER masque — notamment dans les langues où un caractère manquant change entièrement le sens.

WER vs CER : lequel choisir ?

ScénarioMétrique recommandéePourquoi
Anglais, espagnol, français, etc.WERLes mots sont des unités sémantiques naturelles
Chinois / japonais / coréenCERPas d’espaces ; les caractères portent le sens central
Reconnaissance de texte OCRCERExige une précision détaillée au niveau caractère
Contenu multilingueLes deuxApporte des vues sémantiques et granulaires complémentaires
Jeux de données bruyants, multi-locuteursWERReflète mieux les erreurs sémantiques qui impactent l’utilisabilité

Pourquoi l’évaluation compte en Speech-to-Text

Les systèmes STT modernes — Whisper, Deepgram, Google ASR ou modèles affinés sur mesure — gagnent en précision. Sans métriques d’évaluation cohérentes, il devient impossible de répondre à des questions cruciales :
  • Quel modèle performe le mieux sur mes données métier ?
  • La précision de transcription se dégrade-t-elle au fil du temps en production ?
  • Une mise à jour du modèle a-t-elle amélioré (ou dégradé) la qualité ?
  • Quel est l’impact du bruit de fond ou des variations d’accent ?
Le WER et le CER donnent aux équipes un moyen objectif de mesurer les progrès et de suivre la qualité en production à grande échelle.

Conseils pratiques pour le WER / le CER

1. Toujours normaliser le texte

Avant de calculer les métriques, appliquez un prétraitement pour ne pas gonfler le taux d’erreur avec des différences triviales :
  • harmonisation de la casse ;
  • suppression de la ponctuation ;
  • normalisation Unicode (caractères spéciaux) ;
  • tokenisation cohérente (alignement des frontières mot/caractère).

2. Évaluer par segments

Plutôt que des paragraphes entiers, mesurez la précision sur des unités plus petites :
  • phrases ;
  • segments audio alignés dans le temps ;
  • tours de parole.
Vous identifiez ainsi précisément où se produisent les erreurs (extraits bruyants, parole rapide) pour cibler l’optimisation du modèle.

3. Ne pas s’obséder sur les chiffres absolus

Une petite différence numérique sur le WER/CER ne se traduit pas toujours par une différence d’usage réel. Par exemple :
  • Modèle A : 7,1 % WER
  • Modèle B : 6,5 % WER
L’écart de 0,6 % est négligeable : écoutez toujours des échantillons et jugez le sens avant de choisir. Le WER/CER sont des approximations, pas une mesure complète de la préservation du sens.

L’avenir des métriques Speech-to-Text

À mesure que les STT pilotés par LLM gagnent en capacités, le WER/CER classique reste fondamental, mais de nouveaux cadres d’évaluation émergent pour dépasser leurs limites :
  • Semantic Error Rate (SER) : se concentre sur le sens plutôt que sur la surface textuelle (par ex. équivalence entre « the cat chased the mouse » et « the mouse was chased by the cat ») ;
  • Entity Error Rate : précision des termes à forte valeur (noms, numéros de téléphone, SKU, mots-clés) ;
  • Task Success Rate : dans quelle mesure les transcriptions soutiennent les flux en aval (routage de tickets en centre d’appels, accessibilité des sous-titres).
Le WER et le CER resteront toutefois les métriques de référence pour comparer la transcription audio et les moteurs STT, par leur simplicité et leur universalité.

Conclusion

Le WER et le CER sont des outils simples mais puissants pour évaluer les systèmes Speech-to-Text. Que vous construisiez votre propre moteur ASR, intégriez une API commerciale ou surveilliez la production, ces métriques offrent un moyen clair et objectif de mesurer la précision et le progrès dans le temps.
Les comprendre est indispensable pour toute personne travaillant sur des données audio, le traitement du langage naturel ou l’automatisation pilotée par l’IA : elles sont le socle d’une validation et d’une optimisation fiables des systèmes STT.

Essayer gratuitement maintenant

Testez dès maintenant notre service IA pour la voix, l’audio et la vidéo. Vous bénéficiez d’une transcription vocale en texte très précise, de la traduction multilingue et d’une identification intelligente des locuteurs, mais aussi de la génération automatique de sous‑titres vidéo, de l’édition intelligente de contenu audiovisuel et d’analyses audio‑visuelles synchronisées. La solution couvre tous les cas d’usage : comptes‑rendus de réunion, création de vidéos courtes, production de podcasts, et bien plus encore. Lancez votre essai gratuit dès aujourd’hui !

Son à Texte en LigneSon à Texte GratuitConvertisseur Son à TexteSon à Texte MP3Son à Texte WAVSon à Texte avec HorodatageVoix en texte pour réunionsSound to Text Multi LanguageSon à Texte Sous-titresConvertir WAV en texteVoix en TexteVoix en Texte en LigneParole en texteConvertir MP3 en texteConvertir enregistrement vocal en texteSaisie Vocale en LigneVoix en Texte avec HorodatageVoix en Texte en Temps RéelVoix en Texte pour Audio LongVoix en Texte pour VidéoVoix en Texte pour YouTubeVoix en Texte pour Montage VidéoVoix en Texte pour Sous-titresVoix en Texte pour PodcastsVoix en Texte pour InterviewsAudio d'Entretien en TexteVoix en Texte pour EnregistrementsVoix en Texte pour RéunionsVoix en Texte pour CoursVoix en Texte pour NotesVoix en Texte MultilingueVoix en Texte PréciseVoix en Texte RapideAlternative Premiere Pro Voix en TexteAlternative DaVinci Voix en TexteAlternative VEED Voix en TexteAlternative InVideo Voix en TexteAlternative Otter.ai Voix en TexteAlternative Descript Voix en TexteAlternative Trint Voix en TexteAlternative Rev Voix en TexteAlternative Sonix Voix en TexteAlternative Happy Scribe Voix en TexteAlternative Zoom Voix en TexteAlternative Google Meet Voix en TexteAlternative Microsoft Teams Voix en TexteAlternative Fireflies.ai Voix en TexteAlternative Fathom Voix en TexteAlternative FlexClip Voix en TexteAlternative Kapwing Voix en TexteAlternative Canva Voix en TexteReconnaissance Vocale pour Audio LongVoix IA en TexteVoix en Texte GratuitVoix en Texte Sans PublicitéVoix en Texte pour Audio BruyantVoix en Texte avec TempsGénérer des Sous-titres depuis l'AudioTranscription de Podcasts en LigneTranscrire les Appels ClientsVoix TikTok vers TexteAudio TikTok vers TexteVoix YouTube en TexteAudio YouTube en TexteMémo Vocal en TexteMessage Vocal WhatsApp en TexteMessage Vocal Telegram en TexteTranscription d'Appel DiscordVoix Twitch en TexteVoix Skype en TexteVoix Messenger en TexteMessage Vocal LINE en TexteTranscrire les Vlogs en TexteConvertir l'Audio de Sermon en TexteConvertir la Parole en ÉcritureTraduire l'Audio en TexteConvertir les Notes Audio en TexteSaisie VocaleSaisie Vocale pour RéunionsSaisie Vocale pour YouTubeParler pour ÉcrireSaisie Sans MainsVoix en MotsParole en MotsParole en Texte en LigneOnline Transcription SoftwareParole en Texte pour RéunionsParole en Texte RapideReal Time Speech to TextLive Transcription AppParole en Texte pour TikTokSon en Texte pour TikTokParler en MotsParole en TexteTalk to Text FreeTalk to Text OnlineTalk to Text for YouTubeTalk to Text for SubtitlesTalk to Text for Content CreatorsTalk to Text for MeetingsAudio en SaisieSon en TexteOutil d'Écriture VocaleOutil d'Écriture par ParoleDictée VocaleOutil de Transcription JuridiqueOutil de Dictée MédicaleTranscription Audio JaponaiseTranscription de Réunions en CoréenOutil de Transcription de RéunionsAudio Réunion en TexteConvertisseur de Conférences en TexteAudio de Conférence en TexteTranscription Vidéo en TexteGénérateur de Sous-titres pour TikTokTranscription de Centre d'AppelsOutil Audio Reels vers TexteTranscrire MP3 en TexteTranscrire fichier WAV en texteCapCut Voix en TexteCapCut Voix en TexteVoice to Text in EnglishAudio en Texte AnglaisVoice to Text in SpanishVoice to Text in FrenchAudio en Texte FrançaisVoice to Text in GermanAudio en Texte AllemandVoice to Text in JapaneseAudio en Texte JaponaisVoice to Text in KoreanAudio en Texte CoréenVoice to Text in PortugueseVoice to Text in ArabicVoice to Text in ChineseVoice to Text in HindiVoice to Text in RussianWeb Voice Typing ToolVoice Typing Website