
음성-텍스트 품질 이해하기: WER과 CER 설명
Eric King
Author
음성-텍스트(STT), 즉 자동 음성 인식(ASR)은 음성 비서, 콜센터 분석, 스마트 기기, 자동 자막 등 현대 AI 애플리케이션의 핵심 기능이 되었습니다.
업종 전반으로 도입이 늘면서 자주 묻는 질문이 있습니다.
음성-텍스트 출력 품질은 어떻게 측정할까요?
이 분야를 대표하는 지표는 두 가지입니다.
- WER(Word Error Rate)
- CER(Character Error Rate)
단순해 보이지만, 모델 평가·엔진 비교·운영 성능 모니터링에 직접 영향을 줍니다. 이 글에서는 각각의 의미, 선택 기준, 실제 상황에서의 해석 방법을 정리합니다.
WER(단어 오류율)이란?
WER는 영어, 스페인어, 독일어, 프랑스어처럼 단어 경계가 분명한 언어의 음성 인식 평가에 가장 널리 쓰입니다.
참조 전사와 비교해 전사 텍스트에 오류가 얼마나 있는지 측정합니다.
공식
WER = (S + D + I) / N
기호 의미:
- S — 치환(올바른 단어가 잘못된 단어로 바뀜)
- D — 삭제(참조에 있는 단어가 가설에서 빠짐)
- I — 삽입(참조에 없는 단어가 가설에 추가됨)
- N — 참조 텍스트의 단어 총수
해석을 위한 WER 기준
- 0% → 완벽한 전사
- 10–20% → 많은 산업용 작업에서 허용 가능
- 20–40% → 소음 환경이나 억양이 강한 말에서 흔함
- 40%+ → 인식 품질이 낮음
예시
참조: "The quick brown fox jumps over the lazy dog"
가설: "The quick brown fox jump over lazy dog"
가설: "The quick brown fox jump over lazy dog"
오류:
- 치환("jumps" → "jump")
- 삭제("the")
- 삽입 0
계산:
WER = (1 + 1 + 0) / 9 = 22.2%
CER(문자 오류율)이란?
CER는 단어가 아니라 문자 단위로 전사 정확도를 평가합니다.
특히 중요한 경우는 다음과 같습니다.
- 중국어, 일본어, 한국어(자연스러운 단어 간 띄어쓰기가 없거나 약한 언어)
- OCR(이미지 속 문자 인식)
- 아주 세밀한 평가가 필요한 모델
공식
CER = (S + D + I) / N_characters
(S, D, I)는 문자 수준의 치환·삭제·삽입이며, N_characters는 참조 텍스트의 문자 총수입니다.
문자마다 세기 때문에 WER에서 가려질 수 있는 오류, 특히 한 글자만 빠져도 의미가 바뀌는 언어에서 차이를 드러냅니다.
WER vs CER: 무엇을 쓸까
| 상황 | 권장 지표 | 이유 |
|---|---|---|
| 영어, 스페인어, 프랑스어 등 | WER | 단어가 자연스러운 의미 단위 |
| 중국어 / 일본어 / 한국어 | CER | 공백이 없거나 약함; 핵심 의미가 문자에 실림 |
| OCR 문자 인식 | CER | 문자 단위의 세밀한 정확도 필요 |
| 혼합 다국어 콘텐츠 | 둘 다 | 의미적·세부적 관점을 보완적으로 제공 |
| 소음·다화자 데이터셋 | WER | 사용성에 영향을 주는 의미 오류를 더 잘 반영 |
음성-텍스트에서 평가가 중요한 이유
Whisper, Deepgram, Google ASR, 맞춤 파인튜닝 모델 등 현대 STT는 점점 정확해집니다. 그러나 일관된 평가 지표 없이는 다음 질문에 답하기 어렵습니다.
- 우리 도메인 데이터에서 어떤 모델이 가장 나은가?
- 운영 환경에서 전사 정확도가 시간에 따라 나빠지는가?
- 모델 업데이트가 품질을 개선했는가, 악화했는가?
- 배경 소음·억양 차이의 영향은 어느 정도인가?
WER와 CER는 팀이 개선을 객관적으로 측정하고 운영 품질을 규모 있게 추적할 수 있게 합니다.
WER / CER 실무 팁
1. 항상 텍스트를 정규화하세요
지표를 계산하기 전에 사소한 차이로 오류율이 부풀려지지 않도록 전처리합니다.
- 대소문자 통일
- 구두점 제거
- Unicode 정규화(특수 문자 통일)
- 일관된 토큰화(단어/문자 경계 맞춤)
2. 구간 단위로 평가하세요
전체 문단 대신 더 작은 단위로 정확도를 봅니다.
- 문장
- 시간에 맞춘 오디오 구간
- 화자 턴
노이즈가 큰 클립, 빠른 말 등 오류 위치를 정확히 집어 모델을 목표 있게 개선할 수 있습니다.
3. 절대 수치에 집착하지 마세요
WER/CER의 작은 수치 차이가 항상 실제 사용성으로 이어지지는 않습니다. 예:
- 모델 A: 7.1% WER
- 모델 B: 6.5% WER
0.6%p 차이는 종종 무시해도 됩니다. 모델을 고르기 전에 항상 샘플을 듣고 의미가 보존되는지 판단하세요. WER/CER는 근사치이며, 의미 보존의 완전한 척도는 아닙니다.
음성-텍스트 지표의 앞으로
LLM 기반 STT가 강해지면서 전통적인 WER/CER는 기초로 남지만, 한계를 보완하는 새 평가도 등장하고 있습니다.
- Semantic Error Rate(SER): 표면 텍스트가 아니라 의미에 초점(예: "the cat chased the mouse"와 "the mouse was chased by the cat"을 동등하게 볼지)
- Entity Error Rate: 이름, 전화번호, 제품 SKU, 키워드 등 고가치 용어의 정확도
- Task Success Rate: 전사가 이후 워크플로(콜센터 티켓 라우팅, 자막 접근성 등)를 얼마나 잘 지원하는지
그럼에도 WER와 CER는 단순하고 범용적이라 오디오 전사 벤치마크와 STT 엔진 비교의 업계 표준으로 남을 것입니다.
결론
WER와 CER는 음성-텍스트 시스템을 평가하는 단순하지만 강력한 도구입니다. 자체 ASR을 만들든, 상용 API를 붙이든, 운영 전사를 모니터링하든, 이 지표들은 정확도와 시간에 따른 개선을 명확하고 객관적으로 측정하는 방법을 제공합니다.
오디오 데이터, 자연어 처리, AI 기반 자동화를 다루는 사람에게 WER와 CER 이해는 필수이며, 신뢰할 수 있는 STT 검증과 최적화의 뼈대입니다.


