Качество распознавания речи: WER и CER простыми словами

Качество распознавания речи: WER и CER простыми словами

Eric King

Eric King

Author


Speech-to-Text (STT), или автоматическое распознавание речи (ASR), стало ключевой возможностью современных ИИ-приложений — от голосовых ассистентов и аналитики контакт-центров до умных устройств, автоматических субтитров и многого другого.
По мере внедрения в разные отрасли всё чаще возникает вопрос:
Как измерить качество результата Speech-to-Text?
В этой области доминируют две метрики:
  • WER (Word Error Rate)
  • CER (Character Error Rate)
Несмотря на простоту, они напрямую влияют на то, как мы оцениваем модели, сравниваем движки и следим за качеством в продакшене. В статье — что они означают, когда что использовать и как интерпретировать в реальных сценариях.

Что такое WER (Word Error Rate)?

WER — самая распространённая метрика для оценки распознавания речи в языках с чёткими границами слов: английский, испанский, немецкий, французский и т. д.
Она показывает, сколько ошибок в транскрипции по сравнению с эталонным текстом.

Формула

WER = (S + D + I) / N
Где:
  • S — замены (слово заменено на неверное)
  • D — удаления (слово из эталона отсутствует в гипотезе)
  • I — вставки (в гипотезе есть лишнее слово, которого нет в эталоне)
  • N — общее число слов в эталонном тексте

Пороги WER для интерпретации

  • 0% → идеальная транскрипция
  • 10–20% → приемлемо для многих промышленных задач
  • 20–40% → типично для шумных условий или сильного акцента
  • 40%+ → низкое качество распознавания

Пример

Эталон: "The quick brown fox jumps over the lazy dog"
Гипотеза: "The quick brown fox jump over lazy dog"
Ошибки:
  • замена ("jumps" → "jump")
  • удаление ("the")
  • 0 вставок
Расчёт:
WER = (1 + 1 + 0) / 9 = 22.2%

Что такое CER (Character Error Rate)?

CER оценивает точность транскрипции на уровне символов, а не слов.
Эта метрика особенно важна для:
  • китайского, японского, корейского (языки без естественных пробелов между словами)
  • OCR (распознавание текста на изображениях)
  • моделей, где нужна очень детальная оценка

Формула

CER = (S + D + I) / N_characters
Компоненты (S, D, I) — замены, удаления и вставки на уровне символов; N_characters — общее число символов в эталонном тексте.
Поскольку считается каждый символ, CER выявляет ошибки, которые WER может «спрятать» — особенно в языках, где пропуск одного символа полностью меняет смысл.

WER и CER: что выбрать?

СценарийРекомендуемая метрикаПочему
Английский, испанский, французский и т. д.WERСлова — естественные семантические единицы
Китайский / японский / корейскийCERНет пробелов; смысл несут символы
OCRCERНужна детальная точность на уровне символов
Смешанный многоязычный контентОбеДополняют семантику и детализацию
Шумные данные, несколько дикторовWERЛучше отражает семантические ошибки, влияющие на удобство

Зачем вообще оценивать Speech-to-Text

Современные STT-системы — Whisper, Deepgram, Google ASR или дообученные модели — становятся точнее. Но без согласованных метрик оценки невозможно ответить на ключевые вопросы:
  • Какая модель лучше на моих доменных данных?
  • Падает ли со временем точность транскрипции в продакшене?
  • Улучшило ли обновление модели качество (или ухудшило)?
  • Насколько велики эффекты фонового шума и вариативности акцента?
WER и CER дают командам объективный способ измерять прогресс и отслеживать качество в масштабе.

Практические советы по WER / CER

1. Всегда нормализуйте текст

Перед расчётом метрик выполните предобработку, чтобы не раздувать ошибку из-за мелочей:
  • приведение регистра
  • удаление пунктуации
  • нормализация Unicode (единообразие спецсимволов)
  • согласованная токенизация (границы слов/символов)

2. Оценка по сегментам

Вместо целых абзацев измеряйте точность на меньших единицах:
  • предложения
  • сегменты аудио с выравниванием по времени
  • реплики дикторов
Так видно, где именно ошибки (шумные фрагменты, быстрая речь) — удобнее целенаправленно улучшать модель.

3. Не зацикливайтесь на абсолютных цифрах

Небольшая разница в WER/CER не всегда означает разницу в удобстве для пользователя. Например:
  • Модель A: 7,1% WER
  • Модель B: 6,5% WER
Разрыв 0,6% несуществен — всегда прослушивайте примеры и оценивайте смысл перед выбором. WER/CER — приближения, а не полная мера сохранения смысла.

Будущее метрик для Speech-to-Text

По мере усиления LLM-ориентированных STT классические WER/CER останутся базой, но появляются новые подходы к оценке их ограничений:
  • Semantic Error Rate (SER): акцент на смысле, а не на поверхностном тексте (например, эквивалентность "the cat chased the mouse" и "the mouse was chased by the cat")
  • Entity Error Rate: точность «дорогих» сущностей (имена, телефоны, SKU, ключевые слова)
  • Task Success Rate: насколько транскрипции помогают следующим этапам (маршрутизация тикетов, доступность субтитров)
Тем не менее WER и CER по-прежнему будут отраслевым стандартом для бенчмарков аудиотранскрипции и сравнения STT-движков за счёт простоты и универсальности.

Заключение

WER и CER — простые, но сильные инструменты оценки систем Speech-to-Text. Разрабатываете ли вы свой ASR, подключаете коммерческий API или мониторите продакшен — эти метрики дают ясный объективный способ измерять точность и динамику улучшений.
Понимание WER и CER необходимо всем, кто работает с аудиоданными, NLP или ИИ-автоматизацией — это основа надёжной валидации и оптимизации STT.

Попробовать бесплатно

Попробуйте наш сервис ИИ для работы с голосом, аудио и видео уже сейчас! Вы получите не только высокоточную транскрипцию речи в текст, многоязычный перевод и интеллектуальное разделение по дикторам, но и автоматическую генерацию субтитров к видео, умное редактирование аудио‑ и видеоконтента и синхронный аудио‑видео‑анализ. Решение охватывает все сценарии — от протоколирования встреч до создания коротких видео и подкастов. Начните бесплатный тест уже сегодня!

Звук в текст онлайнЗвук в текст бесплатноКонвертер звука в текстЗвук в текст MP3Звук в текст WAVЗвук в текст с метками времениЗвук в текст для встречSound to Text Multi LanguageЗвук в текст субтитрыКонвертировать WAV в текстГолос в ТекстГолос в Текст ОнлайнРечь в ТекстКонвертировать MP3 в текстКонвертировать голосовую запись в текстГолосовой Ввод ОнлайнГолос в Текст с Временными МеткамиГолос в Текст в Реальном ВремениГолос в Текст для Длинного АудиоГолос в Текст для ВидеоГолос в Текст для YouTubeГолос в Текст для ВидеомонтажаГолос в Текст для СубтитровГолос в Текст для ПодкастовГолос в Текст для ИнтервьюАудио интервью в текстГолос в Текст для ЗаписейГолос в Текст для ВстречГолос в Текст для ЛекцийГолос в Текст для ЗаметокГолос в Текст МногоязычныйГолос в Текст ТочныйГолос в Текст БыстроАльтернатива Premiere Pro Голос в ТекстАльтернатива DaVinci Голос в ТекстАльтернатива VEED Голос в ТекстАльтернатива InVideo Голос в ТекстАльтернатива Otter.ai Голос в ТекстАльтернатива Descript Голос в ТекстАльтернатива Trint Голос в ТекстАльтернатива Rev Голос в ТекстАльтернатива Sonix Голос в ТекстАльтернатива Happy Scribe Голос в ТекстАльтернатива Zoom Голос в ТекстАльтернатива Google Meet Голос в ТекстАльтернатива Microsoft Teams Голос в ТекстАльтернатива Fireflies.ai Голос в ТекстАльтернатива Fathom Голос в ТекстАльтернатива FlexClip Голос в ТекстАльтернатива Kapwing Голос в ТекстАльтернатива Canva Голос в ТекстГолос в Текст для Длинного АудиоИИ Голос в ТекстГолос в Текст БесплатноГолос в Текст Без РекламыГолос в Текст для Шумного АудиоГолос в Текст с ВременемГенерировать Субтитры из АудиоТранскрипция Подкастов ОнлайнТранскрибировать Звонки КлиентовГолос TikTok в ТекстАудио TikTok в ТекстYouTube Голос в ТекстYouTube Аудио в ТекстГолосовая Заметка в ТекстГолосовое Сообщение WhatsApp в ТекстГолосовое Сообщение Telegram в ТекстТранскрипция Звонка DiscordГолос Twitch в ТекстГолос Skype в ТекстГолос Messenger в ТекстГолосовое Сообщение LINE в ТекстТранскрибировать Влоги в ТекстКонвертировать Аудио Проповеди в ТекстПреобразовать Речь в ПисьмоПеревести Аудио в ТекстПреобразовать Аудио Заметки в ТекстГолосовой ВводГолосовой Ввод для ВстречГолосовой Ввод для YouTubeГовори и ПечатайПечать Без РукГолос в СловаРечь в СловаРечь в Текст ОнлайнOnline Transcription SoftwareРечь в Текст для ВстречБыстрая Речь в ТекстReal Time Speech to TextLive Transcription AppРечь в Текст для TikTokЗвук в Текст для TikTokРечь в Слова (говоря)Речь в ТекстTalk to Text FreeTalk to Text OnlineTalk to Text for YouTubeTalk to Text for SubtitlesTalk to Text for Content CreatorsTalk to Text for MeetingsАудио в ПечатьЗвук в ТекстИнструмент Голосового ПисанияИнструмент Речевого ПисанияГолосовая ДиктовкаИнструмент Юридической ТранскрипцииИнструмент Медицинской ДиктовкиЯпонская Аудио ТранскрипцияКорейская Транскрипция ВстречИнструмент Транскрипции ВстречАудио встречи в текстКонвертер Лекций в ТекстАудио лекции в текстТранскрипция Видео в ТекстГенератор Субтитров для TikTokТранскрипция Колл-ЦентраИнструмент Reels Аудио в ТекстТранскрибировать MP3 в ТекстТранскрибировать WAV файл в текстCapCut Голос в ТекстCapCut Голос в ТекстVoice to Text in EnglishАудио в текст на английскомVoice to Text in SpanishVoice to Text in FrenchАудио в текст на французскомVoice to Text in GermanАудио в текст на немецкомVoice to Text in JapaneseАудио в текст на японскомVoice to Text in KoreanАудио в текст на корейскомVoice to Text in PortugueseVoice to Text in ArabicVoice to Text in ChineseVoice to Text in HindiVoice to Text in RussianWeb Voice Typing ToolVoice Typing Website