Capire la qualità del riconoscimento vocale: WER e CER spiegati

Capire la qualità del riconoscimento vocale: WER e CER spiegati

Eric King

Eric King

Author


Lo Speech-to-Text (STT), noto anche come Automatic Speech Recognition (ASR), è diventato una capacità centrale delle applicazioni di IA moderne: alimenta assistenti vocali, analisi dei contact center, dispositivi intelligenti, sottotitolazione automatica e altro.
Con l’adozione che cresce in molti settori, spesso emerge una domanda:
Come misuriamo la qualità dell’output Speech-to-Text?
Due metriche dominano il campo:
  • WER (Word Error Rate)
  • CER (Character Error Rate)
Nonostante la loro semplicità, influenzano direttamente come valutiamo i modelli, confrontiamo i motori e monitoriamo le prestazioni in produzione. Questo articolo chiarisce cosa significano, quando usare ciascuna e come interpretarle in scenari reali.

Cos’è il WER (Word Error Rate)?

Il WER è la metrica più diffusa per valutare il riconoscimento vocale in lingue con confini di parola chiari, come inglese, spagnolo, tedesco o francese.
Misura quanti errori compaiono nel testo trascritto rispetto a una trascrizione di riferimento.

Formula

WER = (S + D + I) / N
Dove:
  • S — Sostituzioni (una parola è sostituita con una errata)
  • D — Cancellazioni (manca nell’ipotesi una parola presente nel riferimento)
  • I — Inserimenti (nell’ipotesi c’è una parola in più assente nel riferimento)
  • N — Numero totale di parole nel testo di riferimento

Soglie di WER per l’interpretazione

  • 0% → trascrizione perfetta
  • 10–20% → accettabile per molti compiti industriali
  • 20–40% → tipico in ambienti rumorosi o con forte accento
  • 40%+ → qualità di riconoscimento scarsa

Esempio

Riferimento: "The quick brown fox jumps over the lazy dog"
Ipotesi: "The quick brown fox jump over lazy dog"
Errori:
  • Sostituzione ("jumps" → "jump")
  • Cancellazione ("the")
  • 0 inserimenti
Calcolo:
WER = (1 + 1 + 0) / 9 = 22.2%

Cos’è il CER (Character Error Rate)?

Il CER valuta l’accuratezza della trascrizione a livello di carattere anziché di parola.
Questa metrica è particolarmente importante per:
  • cinese, giapponese, coreano (lingue senza spaziatura naturale tra le parole)
  • OCR (riconoscimento del testo nelle immagini)
  • modelli che richiedono una valutazione estremamente fine

Formula

CER = (S + D + I) / N_characters
I componenti (S, D, I) si riferiscono a sostituzioni, cancellazioni e inserimenti a livello di carattere; N_characters è il numero totale di caratteri nel testo di riferimento.
Poiché misura ogni singolo carattere, il CER può evidenziare errori che il WER nasconde—soprattutto in lingue in cui un carattere mancante cambia completamente il significato.

WER vs CER: quale scegliere?

ScenarioMetrica consigliataPerché
Inglese, spagnolo, francese, ecc.WERLe parole sono unità semantiche naturali
Cinese / giapponese / coreanoCERNessuno spazio; i caratteri portano il significato centrale
Riconoscimento testo OCRCERRichiede accuratezza dettagliata a livello di carattere
Contenuti multilingueEntrambeOffrono prospettive semantiche e granulari complementari
Dataset rumorosi, multi-parlanteWERRiflette meglio gli errori semantici che impattano l’usabilità

Perché la valutazione conta nello Speech-to-Text

I sistemi STT moderni—come Whisper, Deepgram, Google ASR o modelli fine-tunati—sono sempre più accurati. Senza metriche di valutazione coerenti, diventa impossibile rispondere a domande cruciali:
  • Quale modello performa meglio sui miei dati di dominio?
  • L’accuratezza della trascrizione peggiora nel tempo in produzione?
  • Un aggiornamento del modello ha migliorato (o peggiorato) la qualità?
  • Quanto incidono rumore di fondo e variazione di accento?
WER e CER offrono ai team un modo oggettivo di misurare i miglioramenti e tracciare la qualità in produzione su larga scala.

Suggerimenti pratici per WER / CER

1. Normalizzare sempre il testo

Prima di calcolare le metriche, applicate questi passaggi di pre-elaborazione per non gonfiare il tasso di errore con differenze banali:
  • uniformare maiuscole/minuscole
  • rimuovere la punteggiatura
  • normalizzazione Unicode (caratteri speciali)
  • tokenizzazione coerente (allineare confini parola/carattere)

2. Valutazione a livello di segmento

Invece di confrontare interi paragrafi, misurate l’accuratezza su unità più piccole:
  • frasi
  • segmenti audio allineati nel tempo
  • turni di parlante
Così individuate con precisione dove avvengono gli errori (es. clip rumorosi, parlato veloce) per ottimizzare il modello in modo mirato.

3. Non fissarsi sui numeri assoluti

Una piccola differenza numerica in WER/CER non sempre corrisponde a usabilità reale. Ad esempio:
  • Modello A: 7,1% WER
  • Modello B: 6,5% WER
Il divario dello 0,6% è trascurabile—ascoltate sempre campioni e valutate il significato semantico prima di scegliere. WER/CER sono approssimazioni, non misure complete della conservazione del significato.

Il futuro delle metriche Speech-to-Text

Man mano che gli STT guidati da LLM diventano più capaci, il WER/CER tradizionale resta fondamentale, ma emergono nuovi modelli di valutazione per i loro limiti:
  • Semantic Error Rate (SER): si concentra sul significato anziché sul testo superficiale (es. se "the cat chased the mouse" e "the mouse was chased by the cat" sono considerati equivalenti)
  • Entity Error Rate: misura l’accuratezza di termini ad alto valore (nomi, numeri di telefono, SKU, parole chiave)
  • Task Success Rate: valuta quanto le trascrizioni supportano i flussi a valle (es. instradamento ticket nel contact center, accessibilità dei sottotitoli)
WER e CER continueranno tuttavia a essere le metriche standard del settore per il benchmark della trascrizione audio e il confronto tra motori STT, per semplicità e universalità.

Conclusione

WER e CER sono strumenti semplici ma potenti per valutare i sistemi Speech-to-Text. Che stiate costruendo un motore ASR proprio, integrando un’API commerciale o monitorando trascrizioni in produzione, queste metriche forniscono un modo chiaro e oggettivo di misurare l’accuratezza e i progressi nel tempo.
Comprendere WER e CER è essenziale per chi lavora con dati audio, elaborazione del linguaggio naturale o automazione guidata dall’IA: sono la spina dorsale di una validazione e ottimizzazione affidabili degli STT.

Provalo gratis ora

Prova subito il nostro servizio basato su IA per voce, audio e video! Non solo ottieni una trascrizione voce‑testo ad alta precisione, traduzione multilingue e identificazione intelligente dei parlanti, ma puoi anche generare automaticamente sottotitoli per i video, modificare in modo intelligente i contenuti audio‑video ed effettuare analisi sincronizzate di audio e immagine. Copri tutti gli scenari: verbali di riunioni, creazione di video brevi, produzione di podcast e molto altro. Inizia ora la tua prova gratuita!

Suono a Testo OnlineSuono a Testo GratuitoConvertitore Suono in TestoSuono a Testo MP3Suono a Testo WAVSuono a Testo con TimestampVoce in testo per riunioniSound to Text Multi LanguageSuono a Testo SottotitoliConvertire WAV in testoVoce in TestoVoce in Testo OnlineVoce in TestoConvertire MP3 in TestoConvertire registrazione vocale in testoDigitazione Vocale OnlineVoce in Testo con TimestampVoce in Testo in Tempo RealeVoce in Testo per Audio LunghiVoce in Testo per VideoVoce a Testo per YouTubeVoce a Testo per Montaggio VideoVoce a Testo per SottotitoliVoce a Testo per PodcastVoce a Testo per IntervisteAudio Intervista in TestoVoce a Testo per RegistrazioniVoce a Testo per RiunioniVoce a Testo per LezioniVoce a Testo per NoteVoce in Testo MultilingueVoce in Testo PrecisaVoce in Testo VeloceAlternativa Premiere Pro Voce in TestoAlternativa DaVinci Voce in TestoAlternativa VEED Voce in TestoAlternativa InVideo Voce in TestoAlternativa Otter.ai Voce in TestoAlternativa Descript Voce in TestoAlternativa Trint Voce in TestoAlternativa Rev Voce in TestoAlternativa Sonix Voce in TestoAlternativa Happy Scribe Voce in TestoAlternativa Zoom Voce in TestoAlternativa Google Meet Voce in TestoAlternativa Microsoft Teams Voce in TestoAlternativa Fireflies.ai Voce in TestoAlternativa Fathom Voce in TestoAlternativa FlexClip Voce in TestoAlternativa Kapwing Voce in TestoAlternativa Canva Voce in TestoVoce a Testo per Audio LunghiVoce IA in TestoVoce in Testo GratuitoVoce in Testo Senza PubblicitàVoce in Testo per Audio RumorosoVoce in Testo con TempoGenera Sottotitoli da AudioTrascrizione Podcast OnlineTrascrivi Chiamate ClientiVoce TikTok a TestoAudio TikTok a TestoVoce YouTube in TestoAudio YouTube in TestoMemo Vocale in TestoMessaggio Vocale WhatsApp in TestoMessaggio Vocale Telegram in TestoTrascrizione Chiamata DiscordVoce Twitch in TestoVoce Skype in TestoVoce Messenger in TestoMessaggio Vocale LINE in TestoTrascrivi Vlog in TestoConverti Audio Sermone in TestoConverti Parlato in ScritturaTraduci Audio in TestoConverti Note Audio in TestoDigitazione VocaleDigitazione Vocale per RiunioniDigitazione Vocale per YouTubeParla per ScrivereDigitazione Senza ManiVoce in ParoleParlato in ParoleParlato in Testo OnlineOnline Transcription SoftwareParlato in Testo per RiunioniParlato in Testo VeloceReal Time Speech to TextLive Transcription AppParlato in Testo per TikTokSuono in Testo per TikTokParlare in ParoleParlato in TestoTalk to Text FreeTalk to Text OnlineTalk to Text for YouTubeTalk to Text for SubtitlesTalk to Text for Content CreatorsTalk to Text for MeetingsAudio in DigitazioneSuono in TestoStrumento di Scrittura VocaleStrumento di Scrittura VocaleDettatura VocaleStrumento di Trascrizione LegaleStrumento di Dettatura MedicaTrascrizione Audio GiapponeseTrascrizione Riunioni CoreaneStrumento di Trascrizione RiunioniAudio Riunione in TestoConvertitore Lezione a TestoAudio Lezione in TestoTrascrizione Video a TestoGeneratore di Sottotitoli per TikTokTrascrizione Call CenterStrumento Audio Reels a TestoTrascrivere MP3 in TestoTrascrivere file WAV in testoCapCut Voce in TestoCapCut Voce in TestoVoice to Text in EnglishAudio in Testo IngleseVoice to Text in SpanishVoice to Text in FrenchAudio in Testo FranceseVoice to Text in GermanAudio in Testo TedescoVoice to Text in JapaneseAudio in Testo GiapponeseVoice to Text in KoreanAudio in Testo CoreanoVoice to Text in PortugueseVoice to Text in ArabicVoice to Text in ChineseVoice to Text in HindiVoice to Text in RussianWeb Voice Typing ToolVoice Typing Website