영어 인터뷰에서의 Whisper Large v3 Turbo — 2026년 3월 28일 벤치마크(WER, CER, RTF)

영어 인터뷰에서의 Whisper Large v3 Turbo — 2026년 3월 28일 벤치마크(WER, CER, RTF)

2026-03-28Test
Eric King

Eric King

Author


이 글은 영어 인터뷰 스타일 오디오(약 8.5분)에 대한 단일·고정 구성 실행을 기록한다. 스코어러는 **단어 오류율이 약 69%**에 가깝다고 보고하며, 오류 예산은 삭제가 지배한다(2192회 삭제 대 188회 치환, 0회 삽입). 이 패턴은 일반적으로 가설 텍스트가 전형적인 “노이즈는 있지만 완결된” 전사보다 참조를 훨씬 덜 덮는다는 뜻이므로, 수치는 진단용으로 읽고 모델 출력과 참조가 동일 녹음·동일 분할을 설명하는지 수동 확인이 함께 필요하다.
동영상과 참조 텍스트. 평가 오디오는 하나의 소스 동영상(아래 링크)에서 온다. 참조 WebVTT(ref.vtt)는 해당 동영상에 동봉된 자막 트랙을 플랫폼 자막에서 WebVTT로 보내거나 저장한 것이며, 독립적으로 작성한 “골드” 전사가 아니다. **가설(model.vtt)**은 동일 오디오에 대한 Whisper large-v3-turbo ASR 출력이다. 따라서 메트릭은 플랫폼 제공 자막이번 ASR 실행을 비교하며, 이는 실무적 기준선이지만 수작업으로 정제된 연구용 전사에 대한 채점과는 같지 않다.

1. 이 벤치마크가 중요한 이유

인터뷰 오디오는 화자 겹침, 불규칙한 속도, 고유명, 숫자 등으로 ASR에 부담을 준다. 모델 ID, 언어, 길이, 타임스탬프, 표준 메트릭을 공개하면 재실행이나 다른 파이프라인과 비교 가능한 기록이 된다. 목표는 투명성이지 제품 주장이 아니다.

2. 테스트 설정

별도 언급이 없으면 아래 값은 본 케이스의 other.yamlresult.json에서 가져온다.
필드
날짜(처리 구간)2026-03-28(other.yamlprocesstime-at / completed-at 참고)
시나리오영어 인터뷰 스타일 콘텐츠(언어 태그: English)
Whisper 모델large-v3-turbo(other.yamlwhisper-model)
오디오 길이(YAML)08:25(8분 25초 벽시계 라벨)
오디오 길이(스코어러)506.88초(result.json의 참조 VTT cue 범위에서)
벽시계 처리 구간processtime-at: 2026-03-28 09:56:40.204completed-at: 2026-03-28 09:57:57.000
유도 STT 처리 시간76.8초(위 두 타임스탬프 차이. 이번 실행은 명시적 두 파일 VTT 모드로 스코어러 출력에 YAML이 붙지 않아 result.json에 저장되지 않음)
유도 RTF0.151(처리 시간 ÷ 오디오 길이 506.88초)
참고: 이번 명시적 두 파일 실행에서는 result.json"yamlMeta": null이며 RTF도 null이다. 본문의 처리 시간과 RTF는 방법론 섹션과의 일관성을 위해 other.yaml에서 재계산했다.

3. 평가 방법론

참조와 가설은 WebVTT 파일이다. cue에서 일반 텍스트를 추출(타임스탬프와 인덱스 제거)한 뒤 채점 전에 정규화(대소문자, 구두점, 단순 타이포그래피)한다.
단어 수준 정렬
참조와 가설을 토큰 시퀀스로 정렬한다. 표준 레벤슈타인 스타일 동적 계획으로 두 단어 시퀀스 사이의 최소 비용 경로를 찾고, 백트래킹으로 참조 길이 N에 대한 치환(S), 삭제(D), 삽입(I) 개수를 얻는다.
WER정확도
(S), (D), (I)를 치환·삭제·삽입 개수, (N)을 참조 단어 수라 하자.
[ \mathrm{WER} = \frac{S + D + I}{N}, \qquad \mathrm{Accuracy} = 1 - \mathrm{WER}. ]
CER
정규화 문자열에서 공백을 제거한다. 문자 편집 거리는 문자 수준 레벤슈타인 거리이며, 참조 문자 수는 공백 없는 참조 문자열 길이다.
[ \mathrm{CER} = \frac{\text{Character edit distance}}{\text{Reference character count}}. ]
RTF
[ \mathrm{RTF} = \frac{\text{Processing time (seconds)}}{\text{Audio duration (seconds)}}. ]
RTF가 1 미만이면 이 하드웨어/이 실행에서 디코딩이 실시간보다 빨랐다는 뜻이다.

4. 모델 개요

Whisper large-v3-turbo는 “large” 계열로, 완전한 large 체크포인트 대비 일부 연산을 처리량과 교환한다(정확한 동작은 구현과 하드웨어에 따름). 완벽한 충실도를 가정하지 않는 초안·검색 색인용 범용 다국어 ASR이다. 본 테스트는 other.yaml단일 구성만 다루며 온도·청킹·VAD 스윕은 없다.

5. 결과(result.json에서)

사전 계산된 메트릭 객체의 정확한 값:
  • 참조 단어 수(N): 3442
  • 치환(S): 188
  • 삭제(D): 2192
  • 삽입(I): 0
  • WER: 0.6914584543869843
  • 정확도: 0.3085415456130157
  • 참조 문자 수: 15790
  • 문자 편집 거리: 10494
  • CER: 0.664597846738442
  • 오디오 길이(초): 506.88
  • JSON 내 STT 처리 시간: null(YAML 유도 값은 2절)
  • JSON 내 RTF: null(YAML 타임스탬프로 유도 RTF ≈ 0.151)
  • 평가 스크립트 실행 시간: 3.11초
읽기 쉬운 반올림
  • WER ≈ 69.1%; 정확도 ≈ 30.9%
  • CER ≈ 66.5%
  • 참조 약 15.8k 문자에 대해 문자 편집 약 10.5k
  • RTF ≈ 0.15×(YAML 유도 처리 시간으로 이 클립은 실시간보다 빠름)

6. 오류 패턴 분석

I = 0이므로 이 정렬에서 가설은 불필요한 단어를 추가하지 않는다. 단어 수준 오류 질량의 대부분은 삭제와 치환이며, 삭제가 치환보다 한 자릿수 크다(2192188).
실무 해석:
  • 삭제 비중이 큰 프로파일은 가설에 누락 구간(무음 처리, 조기 종료, 클립 길이 불일치, 참조가 실제로 전사된 오디오보다 김 등)을 자주 시사한다.
  • 삽입 0은 지저분한 실제 ASR에서는 드물며, 극단적 WER과 함께면 점수를 “모델 품질”만으로 돌리기 전에 데이터 짝짓기(동일 파일·언어·참조 편집)를 검증하라는 신호다.
**CER ~66%**는 참조와 가설 사이에 길게 맞지 않는 텍스트 구간이 있다는 점과 일치하며, 가끔의 단어 교환만으로는 설명하기 어렵다.

7. 핵심 인사이트

  • 속도: 유도 RTF ≈ 0.15는 이 클립에서 스택이 실시간의 일부로 끝났음을 시사하며, 원시 WER과 무관하게 지연시간이 중요한 경우에 유용할 수 있다.
  • 정확도: **WER ~69%**는 집중적인 인간 검토 없이 출판 가능한 인용이나 법적 수준 전사에 충분하지 않다.
  • 오류 형태: 삭제가 지배적; 디코딩 하이퍼파라미터 조정보다 커버리지세그먼트 정렬 조사를 우선한다.
  • 단일 샘플 한계: 인터뷰 하나와 모델 구성 하나는 모든 억양·코덱·잡음에서의 기대 운영 성능을 정의하지 않는다.
  • 재현성: 네 가지 아티팩트를 함께 보관하면 동결 스냅샷이 유지된다.

8. 이 시나리오에 가장 좋은 모델

이 클립과 이 참조에 한해 Whisper large-v3-turbo문서화된 기준선이다. 타임스탬프는 처리량을, WER/CER은 참조 대비 불일치를 말할 뿐이며, 모든 영어 인터뷰에 최선이라고 주장하지 않는다.

9. 중립적 최종 판단

오류가 허용되고 속도가 중요한 초안 메모, 내부 검색, 대략적 색인에서는 낮은 RTF와 저장된 전사가 명확한 면책과 함께 여전히 쓸 수 있다.
참가자 인용, 컴플라이언스에 민감한 워크플로, 아카이브 출판에서는 본 실행의 **단어 정확도 ~31%**와 삭제 편중 오류 프로파일로, 검증된 쌍에서 점수가 개선될 때까지 인간 교정 또는 다른 캡처/참조 정렬을 전제로 해야 한다.
데이터 문제를 고친 뒤 스코어러를 다시 실행하면 된다. 방법론은 계속 비교 가능하다.

출처 자료

케이스 폴더 이름: 20260328(리포지토리 경로 접두사: test-transcripts/20260328/).
  • 원본 동영상(오디오 소스): 참조로 쓰인 자막이 속한 동일 동영상의 정식 URL(예: YouTube 시청 링크)을 추가한다. ASR에 넣은 오디오는 이 업로드와 대응해야 한다.
  • 참조 전사(VTT): test-transcripts/20260328/ref.vtt소스 동영상에 제공된 자막을 채점용 WebVTT로 저장한 것.
  • 모델 전사(VTT): test-transcripts/20260328/model.vtt — 해당 오디오에 대한 Whisper large-v3-turbo 출력.
  • 실행 메타데이터: test-transcripts/20260328/other.yaml
  • 사전 계산 평가 메트릭: test-transcripts/20260328/result.json
평가는 이 리포지토리의 scripts/evaluate-vtt-metrics.js로 생성했다. 위 파일을 test-transcripts/20260328/에 두면 인용된 수치를 재현할 수 있다.

지금 무료로 체험하기

지금 바로 저희 AI 음성·오디오·영상 서비스를 체험해 보세요! 고정밀 음성-텍스트 전사, 다국어 번역, 지능형 화자 분리를 제공할 뿐 아니라, 동영상 자동 자막 생성, 오디오·영상 콘텐츠의 스마트 편집, 음성·영상 동기 분석까지 지원합니다. 회의 기록, 숏폼 영상 제작, 팟캐스트 제작 등 모든 상황을 완전히 커버합니다. 지금 무료 체험을 시작해 보세요!

온라인 사운드 to 텍스트무료 사운드 to 텍스트사운드 텍스트 변환기사운드 to 텍스트 MP3사운드 to 텍스트 WAV사운드 to 텍스트 (타임스탬프 포함)회의용 사운드-텍스트 변환Sound to Text Multi Language사운드 to 텍스트 자막WAV를 텍스트로 변환음성 텍스트 변환온라인 음성 텍스트 변환음성 텍스트 변환MP3 텍스트 변환음성 녹음을 텍스트로 변환온라인 음성 입력타임스탬프가 있는 음성 텍스트 변환실시간 음성 텍스트 변환긴 오디오 음성 텍스트 변환비디오 음성 텍스트 변환YouTube 음성 텍스트 변환동영상 편집 음성 텍스트 변환자막 음성 텍스트 변환팟캐스트 음성 텍스트 변환인터뷰 음성 텍스트 변환인터뷰 오디오 텍스트 변환녹음 음성 텍스트 변환회의 음성 텍스트 변환강의 음성 텍스트 변환음성 메모 텍스트 변환다국어 음성 텍스트 변환정확한 음성 텍스트 변환빠른 음성 텍스트 변환Premiere Pro 음성 텍스트 변환 대안DaVinci 음성 텍스트 변환 대안VEED 음성 텍스트 변환 대안InVideo 음성 텍스트 변환 대안Otter.ai 음성 텍스트 변환 대안Descript 음성 텍스트 변환 대안Trint 음성 텍스트 변환 대안Rev 음성 텍스트 변환 대안Sonix 음성 텍스트 변환 대안Happy Scribe 음성 텍스트 변환 대안Zoom 음성 텍스트 변환 대안Google Meet 음성 텍스트 변환 대안Microsoft Teams 음성 텍스트 변환 대안Fireflies.ai 음성 텍스트 변환 대안Fathom 음성 텍스트 변환 대안FlexClip 음성 텍스트 변환 대안Kapwing 음성 텍스트 변환 대안Canva 음성 텍스트 변환 대안긴 오디오 음성 텍스트 변환AI 음성 텍스트 변환무료 음성 텍스트 변환광고 없는 음성 텍스트 변환시끄러운 오디오 음성 텍스트 변환시간이 있는 음성 텍스트 변환오디오에서 자막 생성팟캐스트 전사 온라인고객 통화 전사TikTok 음성을 텍스트로TikTok 오디오를 텍스트로YouTube 음성 텍스트 변환YouTube 오디오 텍스트 변환음성 메모 텍스트 변환WhatsApp 음성 메시지 텍스트 변환Telegram 음성 메시지 텍스트 변환Discord 통화 전사Twitch 음성 텍스트 변환Skype 음성 텍스트 변환Messenger 음성 텍스트 변환LINE 음성 메시지 텍스트 변환Vlog 전사 텍스트 변환설교 오디오 텍스트 변환음성 텍스트 변환오디오 텍스트 변환음성 노트 텍스트 변환음성 입력회의 음성 입력YouTube 음성 입력말해서 입력핸즈프리 입력음성을 단어로음성을 단어로온라인 음성 텍스트 변환Online Transcription Software회의 음성 텍스트 변환빠른 음성 텍스트 변환Real Time Speech to TextLive Transcription AppTikTok 음성 텍스트 변환TikTok 음성 텍스트 변환말한 것을 글로음성을 텍스트로Talk to Text FreeTalk to Text OnlineTalk to Text for YouTubeTalk to Text for SubtitlesTalk to Text for Content CreatorsTalk to Text for Meetings오디오를 타이핑으로소리를 텍스트로음성 작성 도구음성 작성 도구음성 입력법률 전사 도구의료 음성 받아쓰기 도구일본어 오디오 전사한국어 회의 전사회의 전사 도구회의 오디오 텍스트 변환강의 텍스트 변환기강의 오디오 텍스트 변환동영상 텍스트 전사TikTok 자막 생성기콜센터 전사Reels 오디오 텍스트 변환 도구MP3 텍스트 전사WAV 파일 텍스트 전사CapCut 음성 텍스트 변환CapCut 음성 텍스트 변환Voice to Text in English영어 오디오 텍스트 변환Voice to Text in SpanishVoice to Text in French프랑스어 오디오 텍스트 변환Voice to Text in German독일어 오디오 텍스트 변환Voice to Text in Japanese일본어 오디오 텍스트 변환Voice to Text in Korean한국어 오디오 텍스트 변환Voice to Text in PortugueseVoice to Text in ArabicVoice to Text in ChineseVoice to Text in HindiVoice to Text in RussianWeb Voice Typing ToolVoice Typing Website