
영어 인터뷰에서의 Whisper Large v3 Turbo — 2026년 3월 28일 벤치마크(WER, CER, RTF)
2026-03-28Test
Eric King
Author
이 글은 영어 인터뷰 스타일 오디오(약 8.5분)에 대한 단일·고정 구성 실행을 기록한다. 스코어러는 **단어 오류율이 약 69%**에 가깝다고 보고하며, 오류 예산은 삭제가 지배한다(2192회 삭제 대 188회 치환, 0회 삽입). 이 패턴은 일반적으로 가설 텍스트가 전형적인 “노이즈는 있지만 완결된” 전사보다 참조를 훨씬 덜 덮는다는 뜻이므로, 수치는 진단용으로 읽고 모델 출력과 참조가 동일 녹음·동일 분할을 설명하는지 수동 확인이 함께 필요하다.
동영상과 참조 텍스트. 평가 오디오는 하나의 소스 동영상(아래 링크)에서 온다. 참조 WebVTT(
ref.vtt)는 해당 동영상에 동봉된 자막 트랙을 플랫폼 자막에서 WebVTT로 보내거나 저장한 것이며, 독립적으로 작성한 “골드” 전사가 아니다. **가설(model.vtt)**은 동일 오디오에 대한 Whisper large-v3-turbo ASR 출력이다. 따라서 메트릭은 플랫폼 제공 자막과 이번 ASR 실행을 비교하며, 이는 실무적 기준선이지만 수작업으로 정제된 연구용 전사에 대한 채점과는 같지 않다.1. 이 벤치마크가 중요한 이유
인터뷰 오디오는 화자 겹침, 불규칙한 속도, 고유명, 숫자 등으로 ASR에 부담을 준다. 모델 ID, 언어, 길이, 타임스탬프, 표준 메트릭을 공개하면 재실행이나 다른 파이프라인과 비교 가능한 기록이 된다. 목표는 투명성이지 제품 주장이 아니다.
2. 테스트 설정
별도 언급이 없으면 아래 값은 본 케이스의
other.yaml과 result.json에서 가져온다.| 필드 | 값 |
|---|---|
| 날짜(처리 구간) | 2026-03-28(other.yaml의 processtime-at / completed-at 참고) |
| 시나리오 | 영어 인터뷰 스타일 콘텐츠(언어 태그: English) |
| Whisper 모델 | large-v3-turbo(other.yaml의 whisper-model) |
| 오디오 길이(YAML) | 08:25(8분 25초 벽시계 라벨) |
| 오디오 길이(스코어러) | 506.88초(result.json의 참조 VTT cue 범위에서) |
| 벽시계 처리 구간 | processtime-at: 2026-03-28 09:56:40.204 → completed-at: 2026-03-28 09:57:57.000 |
| 유도 STT 처리 시간 | ≈ 76.8초(위 두 타임스탬프 차이. 이번 실행은 명시적 두 파일 VTT 모드로 스코어러 출력에 YAML이 붙지 않아 result.json에 저장되지 않음) |
| 유도 RTF | ≈ 0.151(처리 시간 ÷ 오디오 길이 506.88초) |
참고: 이번 명시적 두 파일 실행에서는
result.json에 "yamlMeta": null이며 RTF도 null이다. 본문의 처리 시간과 RTF는 방법론 섹션과의 일관성을 위해 other.yaml에서 재계산했다.3. 평가 방법론
참조와 가설은 WebVTT 파일이다. cue에서 일반 텍스트를 추출(타임스탬프와 인덱스 제거)한 뒤 채점 전에 정규화(대소문자, 구두점, 단순 타이포그래피)한다.
단어 수준 정렬
참조와 가설을 토큰 시퀀스로 정렬한다. 표준 레벤슈타인 스타일 동적 계획으로 두 단어 시퀀스 사이의 최소 비용 경로를 찾고, 백트래킹으로 참조 길이 N에 대한 치환(S), 삭제(D), 삽입(I) 개수를 얻는다.
WER와 정확도
(S), (D), (I)를 치환·삭제·삽입 개수, (N)을 참조 단어 수라 하자.
[
\mathrm{WER} = \frac{S + D + I}{N}, \qquad \mathrm{Accuracy} = 1 - \mathrm{WER}.
]
CER
정규화 문자열에서 공백을 제거한다. 문자 편집 거리는 문자 수준 레벤슈타인 거리이며, 참조 문자 수는 공백 없는 참조 문자열 길이다.
[
\mathrm{CER} = \frac{\text{Character edit distance}}{\text{Reference character count}}.
]
RTF
[
\mathrm{RTF} = \frac{\text{Processing time (seconds)}}{\text{Audio duration (seconds)}}.
]
RTF가 1 미만이면 이 하드웨어/이 실행에서 디코딩이 실시간보다 빨랐다는 뜻이다.
4. 모델 개요
Whisper large-v3-turbo는 “large” 계열로, 완전한 large 체크포인트 대비 일부 연산을 처리량과 교환한다(정확한 동작은 구현과 하드웨어에 따름). 완벽한 충실도를 가정하지 않는 초안·검색 색인용 범용 다국어 ASR이다. 본 테스트는
other.yaml의 단일 구성만 다루며 온도·청킹·VAD 스윕은 없다.5. 결과(result.json에서)
사전 계산된 메트릭 객체의 정확한 값:
- 참조 단어 수(N): 3442
- 치환(S): 188
- 삭제(D): 2192
- 삽입(I): 0
- WER: 0.6914584543869843
- 정확도: 0.3085415456130157
- 참조 문자 수: 15790
- 문자 편집 거리: 10494
- CER: 0.664597846738442
- 오디오 길이(초): 506.88
- JSON 내 STT 처리 시간:
null(YAML 유도 값은 2절) - JSON 내 RTF:
null(YAML 타임스탬프로 유도 RTF ≈ 0.151) - 평가 스크립트 실행 시간: 3.11초
읽기 쉬운 반올림
- WER ≈ 69.1%; 정확도 ≈ 30.9%
- CER ≈ 66.5%
- 참조 약 15.8k 문자에 대해 문자 편집 약 10.5k
- RTF ≈ 0.15×(YAML 유도 처리 시간으로 이 클립은 실시간보다 빠름)
6. 오류 패턴 분석
I = 0이므로 이 정렬에서 가설은 불필요한 단어를 추가하지 않는다. 단어 수준 오류 질량의 대부분은 삭제와 치환이며, 삭제가 치환보다 한 자릿수 크다(2192 대 188).
실무 해석:
- 삭제 비중이 큰 프로파일은 가설에 누락 구간(무음 처리, 조기 종료, 클립 길이 불일치, 참조가 실제로 전사된 오디오보다 김 등)을 자주 시사한다.
- 삽입 0은 지저분한 실제 ASR에서는 드물며, 극단적 WER과 함께면 점수를 “모델 품질”만으로 돌리기 전에 데이터 짝짓기(동일 파일·언어·참조 편집)를 검증하라는 신호다.
**CER ~66%**는 참조와 가설 사이에 길게 맞지 않는 텍스트 구간이 있다는 점과 일치하며, 가끔의 단어 교환만으로는 설명하기 어렵다.
7. 핵심 인사이트
- 속도: 유도 RTF ≈ 0.15는 이 클립에서 스택이 실시간의 일부로 끝났음을 시사하며, 원시 WER과 무관하게 지연시간이 중요한 경우에 유용할 수 있다.
- 정확도: **WER ~69%**는 집중적인 인간 검토 없이 출판 가능한 인용이나 법적 수준 전사에 충분하지 않다.
- 오류 형태: 삭제가 지배적; 디코딩 하이퍼파라미터 조정보다 커버리지와 세그먼트 정렬 조사를 우선한다.
- 단일 샘플 한계: 인터뷰 하나와 모델 구성 하나는 모든 억양·코덱·잡음에서의 기대 운영 성능을 정의하지 않는다.
- 재현성: 네 가지 아티팩트를 함께 보관하면 동결 스냅샷이 유지된다.
8. 이 시나리오에 가장 좋은 모델
이 클립과 이 참조에 한해 Whisper large-v3-turbo는 문서화된 기준선이다. 타임스탬프는 처리량을, WER/CER은 참조 대비 불일치를 말할 뿐이며, 모든 영어 인터뷰에 최선이라고 주장하지 않는다.
9. 중립적 최종 판단
오류가 허용되고 속도가 중요한 초안 메모, 내부 검색, 대략적 색인에서는 낮은 RTF와 저장된 전사가 명확한 면책과 함께 여전히 쓸 수 있다.
참가자 인용, 컴플라이언스에 민감한 워크플로, 아카이브 출판에서는 본 실행의 **단어 정확도 ~31%**와 삭제 편중 오류 프로파일로, 검증된 쌍에서 점수가 개선될 때까지 인간 교정 또는 다른 캡처/참조 정렬을 전제로 해야 한다.
데이터 문제를 고친 뒤 스코어러를 다시 실행하면 된다. 방법론은 계속 비교 가능하다.
출처 자료
케이스 폴더 이름:
20260328(리포지토리 경로 접두사: test-transcripts/20260328/).- 원본 동영상(오디오 소스): 참조로 쓰인 자막이 속한 동일 동영상의 정식 URL(예: YouTube 시청 링크)을 추가한다. ASR에 넣은 오디오는 이 업로드와 대응해야 한다.
- 참조 전사(VTT):
test-transcripts/20260328/ref.vtt— 소스 동영상에 제공된 자막을 채점용 WebVTT로 저장한 것. - 모델 전사(VTT):
test-transcripts/20260328/model.vtt— 해당 오디오에 대한 Whisper large-v3-turbo 출력. - 실행 메타데이터:
test-transcripts/20260328/other.yaml - 사전 계산 평가 메트릭:
test-transcripts/20260328/result.json
평가는 이 리포지토리의
scripts/evaluate-vtt-metrics.js로 생성했다. 위 파일을 test-transcripts/20260328/에 두면 인용된 수치를 재현할 수 있다.