음성-텍스트 품질 이해하기: WER과 CER 설명

음성-텍스트 품질 이해하기: WER과 CER 설명

Eric King

Eric King

Author


음성-텍스트(STT), 즉 자동 음성 인식(ASR)은 음성 비서, 콜센터 분석, 스마트 기기, 자동 자막 등 현대 AI 애플리케이션의 핵심 기능이 되었습니다.
업종 전반으로 도입이 늘면서 자주 묻는 질문이 있습니다.
음성-텍스트 출력 품질은 어떻게 측정할까요?
이 분야를 대표하는 지표는 두 가지입니다.
  • WER(Word Error Rate)
  • CER(Character Error Rate)
단순해 보이지만, 모델 평가·엔진 비교·운영 성능 모니터링에 직접 영향을 줍니다. 이 글에서는 각각의 의미, 선택 기준, 실제 상황에서의 해석 방법을 정리합니다.

WER(단어 오류율)이란?

WER는 영어, 스페인어, 독일어, 프랑스어처럼 단어 경계가 분명한 언어의 음성 인식 평가에 가장 널리 쓰입니다.
참조 전사와 비교해 전사 텍스트에 오류가 얼마나 있는지 측정합니다.

공식

WER = (S + D + I) / N
기호 의미:
  • S — 치환(올바른 단어가 잘못된 단어로 바뀜)
  • D — 삭제(참조에 있는 단어가 가설에서 빠짐)
  • I — 삽입(참조에 없는 단어가 가설에 추가됨)
  • N — 참조 텍스트의 단어 총수

해석을 위한 WER 기준

  • 0% → 완벽한 전사
  • 10–20% → 많은 산업용 작업에서 허용 가능
  • 20–40% → 소음 환경이나 억양이 강한 말에서 흔함
  • 40%+ → 인식 품질이 낮음

예시

참조: "The quick brown fox jumps over the lazy dog"
가설: "The quick brown fox jump over lazy dog"
오류:
  • 치환("jumps" → "jump")
  • 삭제("the")
  • 삽입 0
계산:
WER = (1 + 1 + 0) / 9 = 22.2%

CER(문자 오류율)이란?

CER는 단어가 아니라 문자 단위로 전사 정확도를 평가합니다.
특히 중요한 경우는 다음과 같습니다.
  • 중국어, 일본어, 한국어(자연스러운 단어 간 띄어쓰기가 없거나 약한 언어)
  • OCR(이미지 속 문자 인식)
  • 아주 세밀한 평가가 필요한 모델

공식

CER = (S + D + I) / N_characters
(S, D, I)는 문자 수준의 치환·삭제·삽입이며, N_characters는 참조 텍스트의 문자 총수입니다.
문자마다 세기 때문에 WER에서 가려질 수 있는 오류, 특히 한 글자만 빠져도 의미가 바뀌는 언어에서 차이를 드러냅니다.

WER vs CER: 무엇을 쓸까

상황권장 지표이유
영어, 스페인어, 프랑스어 등WER단어가 자연스러운 의미 단위
중국어 / 일본어 / 한국어CER공백이 없거나 약함; 핵심 의미가 문자에 실림
OCR 문자 인식CER문자 단위의 세밀한 정확도 필요
혼합 다국어 콘텐츠둘 다의미적·세부적 관점을 보완적으로 제공
소음·다화자 데이터셋WER사용성에 영향을 주는 의미 오류를 더 잘 반영

음성-텍스트에서 평가가 중요한 이유

Whisper, Deepgram, Google ASR, 맞춤 파인튜닝 모델 등 현대 STT는 점점 정확해집니다. 그러나 일관된 평가 지표 없이는 다음 질문에 답하기 어렵습니다.
  • 우리 도메인 데이터에서 어떤 모델이 가장 나은가?
  • 운영 환경에서 전사 정확도가 시간에 따라 나빠지는가?
  • 모델 업데이트가 품질을 개선했는가, 악화했는가?
  • 배경 소음·억양 차이의 영향은 어느 정도인가?
WER와 CER는 팀이 개선을 객관적으로 측정하고 운영 품질을 규모 있게 추적할 수 있게 합니다.

WER / CER 실무 팁

1. 항상 텍스트를 정규화하세요

지표를 계산하기 전에 사소한 차이로 오류율이 부풀려지지 않도록 전처리합니다.
  • 대소문자 통일
  • 구두점 제거
  • Unicode 정규화(특수 문자 통일)
  • 일관된 토큰화(단어/문자 경계 맞춤)

2. 구간 단위로 평가하세요

전체 문단 대신 더 작은 단위로 정확도를 봅니다.
  • 문장
  • 시간에 맞춘 오디오 구간
  • 화자 턴
노이즈가 큰 클립, 빠른 말 등 오류 위치를 정확히 집어 모델을 목표 있게 개선할 수 있습니다.

3. 절대 수치에 집착하지 마세요

WER/CER의 작은 수치 차이가 항상 실제 사용성으로 이어지지는 않습니다. 예:
  • 모델 A: 7.1% WER
  • 모델 B: 6.5% WER
0.6%p 차이는 종종 무시해도 됩니다. 모델을 고르기 전에 항상 샘플을 듣고 의미가 보존되는지 판단하세요. WER/CER는 근사치이며, 의미 보존의 완전한 척도는 아닙니다.

음성-텍스트 지표의 앞으로

LLM 기반 STT가 강해지면서 전통적인 WER/CER는 기초로 남지만, 한계를 보완하는 새 평가도 등장하고 있습니다.
  • Semantic Error Rate(SER): 표면 텍스트가 아니라 의미에 초점(예: "the cat chased the mouse"와 "the mouse was chased by the cat"을 동등하게 볼지)
  • Entity Error Rate: 이름, 전화번호, 제품 SKU, 키워드 등 고가치 용어의 정확도
  • Task Success Rate: 전사가 이후 워크플로(콜센터 티켓 라우팅, 자막 접근성 등)를 얼마나 잘 지원하는지
그럼에도 WER와 CER는 단순하고 범용적이라 오디오 전사 벤치마크와 STT 엔진 비교의 업계 표준으로 남을 것입니다.

결론

WER와 CER는 음성-텍스트 시스템을 평가하는 단순하지만 강력한 도구입니다. 자체 ASR을 만들든, 상용 API를 붙이든, 운영 전사를 모니터링하든, 이 지표들은 정확도와 시간에 따른 개선을 명확하고 객관적으로 측정하는 방법을 제공합니다.
오디오 데이터, 자연어 처리, AI 기반 자동화를 다루는 사람에게 WER와 CER 이해는 필수이며, 신뢰할 수 있는 STT 검증과 최적화의 뼈대입니다.

지금 무료로 체험하기

지금 바로 저희 AI 음성·오디오·영상 서비스를 체험해 보세요! 고정밀 음성-텍스트 전사, 다국어 번역, 지능형 화자 분리를 제공할 뿐 아니라, 동영상 자동 자막 생성, 오디오·영상 콘텐츠의 스마트 편집, 음성·영상 동기 분석까지 지원합니다. 회의 기록, 숏폼 영상 제작, 팟캐스트 제작 등 모든 상황을 완전히 커버합니다. 지금 무료 체험을 시작해 보세요!

온라인 사운드 to 텍스트무료 사운드 to 텍스트사운드 텍스트 변환기사운드 to 텍스트 MP3사운드 to 텍스트 WAV사운드 to 텍스트 (타임스탬프 포함)회의용 사운드-텍스트 변환Sound to Text Multi Language사운드 to 텍스트 자막WAV를 텍스트로 변환음성 텍스트 변환온라인 음성 텍스트 변환음성 텍스트 변환MP3 텍스트 변환음성 녹음을 텍스트로 변환온라인 음성 입력타임스탬프가 있는 음성 텍스트 변환실시간 음성 텍스트 변환긴 오디오 음성 텍스트 변환비디오 음성 텍스트 변환YouTube 음성 텍스트 변환동영상 편집 음성 텍스트 변환자막 음성 텍스트 변환팟캐스트 음성 텍스트 변환인터뷰 음성 텍스트 변환인터뷰 오디오 텍스트 변환녹음 음성 텍스트 변환회의 음성 텍스트 변환강의 음성 텍스트 변환음성 메모 텍스트 변환다국어 음성 텍스트 변환정확한 음성 텍스트 변환빠른 음성 텍스트 변환Premiere Pro 음성 텍스트 변환 대안DaVinci 음성 텍스트 변환 대안VEED 음성 텍스트 변환 대안InVideo 음성 텍스트 변환 대안Otter.ai 음성 텍스트 변환 대안Descript 음성 텍스트 변환 대안Trint 음성 텍스트 변환 대안Rev 음성 텍스트 변환 대안Sonix 음성 텍스트 변환 대안Happy Scribe 음성 텍스트 변환 대안Zoom 음성 텍스트 변환 대안Google Meet 음성 텍스트 변환 대안Microsoft Teams 음성 텍스트 변환 대안Fireflies.ai 음성 텍스트 변환 대안Fathom 음성 텍스트 변환 대안FlexClip 음성 텍스트 변환 대안Kapwing 음성 텍스트 변환 대안Canva 음성 텍스트 변환 대안긴 오디오 음성 텍스트 변환AI 음성 텍스트 변환무료 음성 텍스트 변환광고 없는 음성 텍스트 변환시끄러운 오디오 음성 텍스트 변환시간이 있는 음성 텍스트 변환오디오에서 자막 생성팟캐스트 전사 온라인고객 통화 전사TikTok 음성을 텍스트로TikTok 오디오를 텍스트로YouTube 음성 텍스트 변환YouTube 오디오 텍스트 변환음성 메모 텍스트 변환WhatsApp 음성 메시지 텍스트 변환Telegram 음성 메시지 텍스트 변환Discord 통화 전사Twitch 음성 텍스트 변환Skype 음성 텍스트 변환Messenger 음성 텍스트 변환LINE 음성 메시지 텍스트 변환Vlog 전사 텍스트 변환설교 오디오 텍스트 변환음성 텍스트 변환오디오 텍스트 변환음성 노트 텍스트 변환음성 입력회의 음성 입력YouTube 음성 입력말해서 입력핸즈프리 입력음성을 단어로음성을 단어로온라인 음성 텍스트 변환Online Transcription Software회의 음성 텍스트 변환빠른 음성 텍스트 변환Real Time Speech to TextLive Transcription AppTikTok 음성 텍스트 변환TikTok 음성 텍스트 변환말한 것을 글로음성을 텍스트로Talk to Text FreeTalk to Text OnlineTalk to Text for YouTubeTalk to Text for SubtitlesTalk to Text for Content CreatorsTalk to Text for Meetings오디오를 타이핑으로소리를 텍스트로음성 작성 도구음성 작성 도구음성 입력법률 전사 도구의료 음성 받아쓰기 도구일본어 오디오 전사한국어 회의 전사회의 전사 도구회의 오디오 텍스트 변환강의 텍스트 변환기강의 오디오 텍스트 변환동영상 텍스트 전사TikTok 자막 생성기콜센터 전사Reels 오디오 텍스트 변환 도구MP3 텍스트 전사WAV 파일 텍스트 전사CapCut 음성 텍스트 변환CapCut 음성 텍스트 변환Voice to Text in English영어 오디오 텍스트 변환Voice to Text in SpanishVoice to Text in French프랑스어 오디오 텍스트 변환Voice to Text in German독일어 오디오 텍스트 변환Voice to Text in Japanese일본어 오디오 텍스트 변환Voice to Text in Korean한국어 오디오 텍스트 변환Voice to Text in PortugueseVoice to Text in ArabicVoice to Text in ChineseVoice to Text in HindiVoice to Text in RussianWeb Voice Typing ToolVoice Typing Website