Качество распознавания речи: WER и CER простыми словами

2025-12-05Document Technology

Eric King

Author

Speech-to-Text (STT), или автоматическое распознавание речи (ASR), стало ключевой возможностью современных ИИ-приложений — от голосовых ассистентов и аналитики контакт-центров до умных устройств, автоматических субтитров и многого другого.

По мере внедрения в разные отрасли всё чаще возникает вопрос:

Как измерить качество результата Speech-to-Text?

В этой области доминируют две метрики:

WER (Word Error Rate)
CER (Character Error Rate)

Несмотря на простоту, они напрямую влияют на то, как мы оцениваем модели, сравниваем движки и следим за качеством в продакшене. В статье — что они означают, когда что использовать и как интерпретировать в реальных сценариях.

Что такое WER (Word Error Rate)?

WER — самая распространённая метрика для оценки распознавания речи в языках с чёткими границами слов: английский, испанский, немецкий, французский и т. д.

Она показывает, сколько ошибок в транскрипции по сравнению с эталонным текстом.

Формула

WER = (S + D + I) / N

Где:

S — замены (слово заменено на неверное)
D — удаления (слово из эталона отсутствует в гипотезе)
I — вставки (в гипотезе есть лишнее слово, которого нет в эталоне)
N — общее число слов в эталонном тексте

Пороги WER для интерпретации

0% → идеальная транскрипция
10–20% → приемлемо для многих промышленных задач
20–40% → типично для шумных условий или сильного акцента
40%+ → низкое качество распознавания

Пример

Эталон: "The quick brown fox jumps over the lazy dog"
Гипотеза: "The quick brown fox jump over lazy dog"

Ошибки:

замена ("jumps" → "jump")
удаление ("the")
0 вставок

Расчёт:

WER = (1 + 1 + 0) / 9 = 22.2%

Что такое CER (Character Error Rate)?

CER оценивает точность транскрипции на уровне символов, а не слов.

Эта метрика особенно важна для:

китайского, японского, корейского (языки без естественных пробелов между словами)
OCR (распознавание текста на изображениях)
моделей, где нужна очень детальная оценка

Формула

CER = (S + D + I) / N_characters

Компоненты (S, D, I) — замены, удаления и вставки на уровне символов; N_characters — общее число символов в эталонном тексте.

Поскольку считается каждый символ, CER выявляет ошибки, которые WER может «спрятать» — особенно в языках, где пропуск одного символа полностью меняет смысл.

WER и CER: что выбрать?

Сценарий	Рекомендуемая метрика	Почему
Английский, испанский, французский и т. д.	WER	Слова — естественные семантические единицы
Китайский / японский / корейский	CER	Нет пробелов; смысл несут символы
OCR	CER	Нужна детальная точность на уровне символов
Смешанный многоязычный контент	Обе	Дополняют семантику и детализацию
Шумные данные, несколько дикторов	WER	Лучше отражает семантические ошибки, влияющие на удобство

Зачем вообще оценивать Speech-to-Text

Современные STT-системы — Whisper, Deepgram, Google ASR или дообученные модели — становятся точнее. Но без согласованных метрик оценки невозможно ответить на ключевые вопросы:

Какая модель лучше на моих доменных данных?
Падает ли со временем точность транскрипции в продакшене?
Улучшило ли обновление модели качество (или ухудшило)?
Насколько велики эффекты фонового шума и вариативности акцента?

WER и CER дают командам объективный способ измерять прогресс и отслеживать качество в масштабе.

Практические советы по WER / CER

1. Всегда нормализуйте текст

Перед расчётом метрик выполните предобработку, чтобы не раздувать ошибку из-за мелочей:

приведение регистра
удаление пунктуации
нормализация Unicode (единообразие спецсимволов)
согласованная токенизация (границы слов/символов)

2. Оценка по сегментам

Вместо целых абзацев измеряйте точность на меньших единицах:

предложения
сегменты аудио с выравниванием по времени
реплики дикторов

Так видно, где именно ошибки (шумные фрагменты, быстрая речь) — удобнее целенаправленно улучшать модель.

3. Не зацикливайтесь на абсолютных цифрах

Небольшая разница в WER/CER не всегда означает разницу в удобстве для пользователя. Например:

Модель A: 7,1% WER
Модель B: 6,5% WER

Разрыв 0,6% несуществен — всегда прослушивайте примеры и оценивайте смысл перед выбором. WER/CER — приближения, а не полная мера сохранения смысла.

Будущее метрик для Speech-to-Text

По мере усиления LLM-ориентированных STT классические WER/CER останутся базой, но появляются новые подходы к оценке их ограничений:

Semantic Error Rate (SER): акцент на смысле, а не на поверхностном тексте (например, эквивалентность "the cat chased the mouse" и "the mouse was chased by the cat")
Entity Error Rate: точность «дорогих» сущностей (имена, телефоны, SKU, ключевые слова)
Task Success Rate: насколько транскрипции помогают следующим этапам (маршрутизация тикетов, доступность субтитров)

Тем не менее WER и CER по-прежнему будут отраслевым стандартом для бенчмарков аудиотранскрипции и сравнения STT-движков за счёт простоты и универсальности.

Заключение

WER и CER — простые, но сильные инструменты оценки систем Speech-to-Text. Разрабатываете ли вы свой ASR, подключаете коммерческий API или мониторите продакшен — эти метрики дают ясный объективный способ измерять точность и динамику улучшений.

Понимание WER и CER необходимо всем, кто работает с аудиоданными, NLP или ИИ-автоматизацией — это основа надёжной валидации и оптимизации STT.

Качество распознавания речи: WER и CER простыми словами

Что такое WER (Word Error Rate)?

Формула

Пороги WER для интерпретации

Пример

Что такое CER (Character Error Rate)?

Формула

WER и CER: что выбрать?

Зачем вообще оценивать Speech-to-Text

Практические советы по WER / CER

1. Всегда нормализуйте текст

2. Оценка по сегментам

3. Не зацикливайтесь на абсолютных цифрах

Будущее метрик для Speech-to-Text

Заключение

Похожие публикации

Что такое голосовой ввод и как он работает?

Распознавание речи с низкой задержкой: речь в текст в реальном времени с SayToWords

Речь в текст для начинающих: полное руководство по старту

Попробовать бесплатно