
Качество распознавания речи: WER и CER простыми словами
Eric King
Author
Speech-to-Text (STT), или автоматическое распознавание речи (ASR), стало ключевой возможностью современных ИИ-приложений — от голосовых ассистентов и аналитики контакт-центров до умных устройств, автоматических субтитров и многого другого.
По мере внедрения в разные отрасли всё чаще возникает вопрос:
Как измерить качество результата Speech-to-Text?
В этой области доминируют две метрики:
- WER (Word Error Rate)
- CER (Character Error Rate)
Несмотря на простоту, они напрямую влияют на то, как мы оцениваем модели, сравниваем движки и следим за качеством в продакшене. В статье — что они означают, когда что использовать и как интерпретировать в реальных сценариях.
Что такое WER (Word Error Rate)?
WER — самая распространённая метрика для оценки распознавания речи в языках с чёткими границами слов: английский, испанский, немецкий, французский и т. д.
Она показывает, сколько ошибок в транскрипции по сравнению с эталонным текстом.
Формула
WER = (S + D + I) / N
Где:
- S — замены (слово заменено на неверное)
- D — удаления (слово из эталона отсутствует в гипотезе)
- I — вставки (в гипотезе есть лишнее слово, которого нет в эталоне)
- N — общее число слов в эталонном тексте
Пороги WER для интерпретации
- 0% → идеальная транскрипция
- 10–20% → приемлемо для многих промышленных задач
- 20–40% → типично для шумных условий или сильного акцента
- 40%+ → низкое качество распознавания
Пример
Эталон: "The quick brown fox jumps over the lazy dog"
Гипотеза: "The quick brown fox jump over lazy dog"
Гипотеза: "The quick brown fox jump over lazy dog"
Ошибки:
- замена ("jumps" → "jump")
- удаление ("the")
- 0 вставок
Расчёт:
WER = (1 + 1 + 0) / 9 = 22.2%
Что такое CER (Character Error Rate)?
CER оценивает точность транскрипции на уровне символов, а не слов.
Эта метрика особенно важна для:
- китайского, японского, корейского (языки без естественных пробелов между словами)
- OCR (распознавание текста на изображениях)
- моделей, где нужна очень детальная оценка
Формула
CER = (S + D + I) / N_characters
Компоненты (S, D, I) — замены, удаления и вставки на уровне символов; N_characters — общее число символов в эталонном тексте.
Поскольку считается каждый символ, CER выявляет ошибки, которые WER может «спрятать» — особенно в языках, где пропуск одного символа полностью меняет смысл.
WER и CER: что выбрать?
| Сценарий | Рекомендуемая метрика | Почему |
|---|---|---|
| Английский, испанский, французский и т. д. | WER | Слова — естественные семантические единицы |
| Китайский / японский / корейский | CER | Нет пробелов; смысл несут символы |
| OCR | CER | Нужна детальная точность на уровне символов |
| Смешанный многоязычный контент | Обе | Дополняют семантику и детализацию |
| Шумные данные, несколько дикторов | WER | Лучше отражает семантические ошибки, влияющие на удобство |
Зачем вообще оценивать Speech-to-Text
Современные STT-системы — Whisper, Deepgram, Google ASR или дообученные модели — становятся точнее. Но без согласованных метрик оценки невозможно ответить на ключевые вопросы:
- Какая модель лучше на моих доменных данных?
- Падает ли со временем точность транскрипции в продакшене?
- Улучшило ли обновление модели качество (или ухудшило)?
- Насколько велики эффекты фонового шума и вариативности акцента?
WER и CER дают командам объективный способ измерять прогресс и отслеживать качество в масштабе.
Практические советы по WER / CER
1. Всегда нормализуйте текст
Перед расчётом метрик выполните предобработку, чтобы не раздувать ошибку из-за мелочей:
- приведение регистра
- удаление пунктуации
- нормализация Unicode (единообразие спецсимволов)
- согласованная токенизация (границы слов/символов)
2. Оценка по сегментам
Вместо целых абзацев измеряйте точность на меньших единицах:
- предложения
- сегменты аудио с выравниванием по времени
- реплики дикторов
Так видно, где именно ошибки (шумные фрагменты, быстрая речь) — удобнее целенаправленно улучшать модель.
3. Не зацикливайтесь на абсолютных цифрах
Небольшая разница в WER/CER не всегда означает разницу в удобстве для пользователя. Например:
- Модель A: 7,1% WER
- Модель B: 6,5% WER
Разрыв 0,6% несуществен — всегда прослушивайте примеры и оценивайте смысл перед выбором. WER/CER — приближения, а не полная мера сохранения смысла.
Будущее метрик для Speech-to-Text
По мере усиления LLM-ориентированных STT классические WER/CER останутся базой, но появляются новые подходы к оценке их ограничений:
- Semantic Error Rate (SER): акцент на смысле, а не на поверхностном тексте (например, эквивалентность "the cat chased the mouse" и "the mouse was chased by the cat")
- Entity Error Rate: точность «дорогих» сущностей (имена, телефоны, SKU, ключевые слова)
- Task Success Rate: насколько транскрипции помогают следующим этапам (маршрутизация тикетов, доступность субтитров)
Тем не менее WER и CER по-прежнему будут отраслевым стандартом для бенчмарков аудиотранскрипции и сравнения STT-движков за счёт простоты и универсальности.
Заключение
WER и CER — простые, но сильные инструменты оценки систем Speech-to-Text. Разрабатываете ли вы свой ASR, подключаете коммерческий API или мониторите продакшен — эти метрики дают ясный объективный способ измерять точность и динамику улучшений.
Понимание WER и CER необходимо всем, кто работает с аудиоданными, NLP или ИИ-автоматизацией — это основа надёжной валидации и оптимизации STT.


