
Entender a qualidade do fala para texto: WER e CER explicados
Eric King
Author
Speech-to-Text (STT), também conhecido como Reconhecimento Automático de Fala (ASR), tornou-se uma capacidade central em aplicações modernas de IA—alimentando assistentes de voz, análise de centrais de atendimento, dispositivos inteligentes, legendagem automática e muito mais.
À medida que a adoção cresce em vários setores, surge com frequência uma pergunta:
Como medimos a qualidade da saída de Speech-to-Text?
Duas métricas dominam o campo:
- WER (Word Error Rate)
- CER (Character Error Rate)
Apesar da simplicidade, influenciam diretamente como avaliamos modelos, comparamos motores e monitoramos o desempenho em produção. Este artigo explica o que significam, quando usar cada uma e como interpretá-las na prática.
O que é WER (Word Error Rate)?
WER é a métrica mais usada para avaliar reconhecimento de fala em línguas com limites claros entre palavras, como inglês, espanhol, alemão ou francês.
Mede quantos erros aparecem no texto transcrito em comparação com uma transcrição de referência.
Fórmula
WER = (S + D + I) / N
Onde:
- S — Substituições (uma palavra é trocada por outra incorreta)
- D — Eliminações (falta na hipótese uma palavra que está na referência)
- I — Inserções (há na hipótese uma palavra extra que não está na referência)
- N — Número total de palavras no texto de referência
Limiares de WER para interpretação
- 0% → transcrição perfeita
- 10–20% → aceitável para muitas tarefas industriais
- 20–40% → típico em ambientes ruidosos ou com sotaque marcado
- 40%+ → qualidade de reconhecimento fraca
Exemplo
Referência: "The quick brown fox jumps over the lazy dog"
Hipótese: "The quick brown fox jump over lazy dog"
Hipótese: "The quick brown fox jump over lazy dog"
Erros:
- Substituição ("jumps" → "jump")
- Eliminação ("the")
- 0 inserções
Cálculo:
WER = (1 + 1 + 0) / 9 = 22.2%
O que é CER (Character Error Rate)?
CER avalia a precisão da transcrição ao nível do carácter em vez da palavra.
Esta métrica é especialmente importante para:
- Chinês, japonês, coreano (línguas sem espaçamento natural entre palavras)
- OCR (reconhecimento de texto em imagens)
- Modelos que exigem avaliação extremamente fina
Fórmula
CER = (S + D + I) / N_characters
Os componentes (S, D, I) referem-se a substituições, eliminações e inserções ao nível de carácter, e N_characters é o número total de caracteres no texto de referência.
Por medir cada carácter individualmente, o CER pode revelar erros que o WER oculta—sobretudo em línguas em que um carácter em falta altera completamente o significado.
WER vs CER: qual escolher?
| Cenário | Métrica recomendada | Porquê |
|---|---|---|
| Inglês, espanhol, francês, etc. | WER | As palavras são unidades semânticas naturais |
| Chinês / japonês / coreano | CER | Sem espaços; os caracteres carregam o significado central |
| Reconhecimento de texto OCR | CER | Exige precisão detalhada ao nível de carácter |
| Conteúdo multilingue | Ambas | Oferecem perspetivas semânticas e granulares complementares |
| Conjuntos de dados ruidosos, com vários falantes | WER | Reflete melhor erros semânticos que afetam a usabilidade |
Porque a avaliação importa em Speech-to-Text
Os sistemas STT modernos—como Whisper, Deepgram, Google ASR ou modelos fine-tuned—são cada vez mais precisos. Sem métricas de avaliação consistentes, torna-se impossível responder a perguntas críticas:
- Que modelo tem melhor desempenho nos meus dados de domínio?
- A precisão da transcrição degrada-se ao longo do tempo em produção?
- Uma atualização do modelo melhorou (ou piorou) a qualidade da transcrição?
- Qual o impacto do ruído de fundo ou da variação de sotaque?
WER e CER dão às equipas uma forma objetiva de medir melhorias e acompanhar a qualidade em produção à escala.
Dicas práticas para usar WER / CER
1. Normalizar sempre o texto
Antes de calcular as métricas, aplique estes passos de pré-processamento para não inflar a taxa de erros com diferenças triviais:
- Unificar maiúsculas/minúsculas
- Remover pontuação
- Normalização Unicode (uniformizar caracteres especiais)
- Tokenização consistente (alinhar limites palavra/carácter)
2. Avaliação ao nível de segmento
Em vez de comparar parágrafos inteiros, meça a precisão em unidades mais pequenas:
- Frases
- Segmentos de áudio alinhados no tempo
- Turnos de falante
Assim localiza exatamente onde ocorrem os erros (por exemplo, clips ruidosos, fala rápida) para otimização direcionada do modelo.
3. Não se fixar em números absolutos
Uma pequena diferença numérica em WER/CER nem sempre se traduz em usabilidade no mundo real. Por exemplo:
- Modelo A: 7,1% WER
- Modelo B: 6,5% WER
A diferença de 0,6% é negligenciável—ouça sempre amostras e avalie o significado semântico antes de escolher um modelo. WER/CER são aproximações, não medidas completas da preservação do significado.
O futuro das métricas de Speech-to-Text
À medida que os sistemas STT orientados por LLM ganham capacidade, o WER/CER tradicional permanece fundamental, mas surgem novos modelos de avaliação para as suas limitações:
- Semantic Error Rate (SER): Foca o significado em vez do texto superficial (por exemplo, se "the cat chased the mouse" e "the mouse was chased by the cat" são considerados equivalentes)
- Entity Error Rate: Mede a precisão de termos de alto valor (nomes, números de telefone, SKUs de produto, palavras-chave)
- Task Success Rate: Avalia até que ponto as transcrições suportam fluxos posteriores (por exemplo, encaminhamento de tickets em call center, acessibilidade de legendas)
WER e CER continuarão, no entanto, a ser as métricas padrão da indústria para comparar transcrição de áudio e motores STT, pela simplicidade e universalidade.
Conclusão
WER e CER são ferramentas simples mas poderosas para avaliar sistemas de Speech-to-Text. Quer esteja a construir o seu próprio motor ASR, a integrar uma API comercial ou a monitorizar transcrições em produção, estas métricas oferecem uma forma clara e objetiva de medir precisão e evolução ao longo do tempo.
Compreender WER e CER é essencial para quem trabalha com dados de áudio, processamento de linguagem natural ou automação orientada por IA—são a espinha dorsal da validação e otimização fiáveis de sistemas STT.


