
영어 YouTube 오디오에서의 Whisper Large v3 Turbo — 2026년 3월 29일 벤치마크(WER, CER, RTF)
2026-03-29Test
Eric King
Author
이 글은 YouTube 업로드에서 가져온 약 18분 분량의 영어 오디오에 대한 고정 구성 단일 실행을 정리합니다. 스코어러는 **WER ≈ 67.6%**를 보고하며 삭제가 지배적입니다(6 449 대 60 치환, 0 삽입). 이런 프로파일은 가설 전사가 참조에 대해 커버리지가 잘 맞지 않음을 시사합니다. 참조가 플랫폼 자막 트랙이고 ASR 출력이 다른 분절이나 길이를 반영할 때 흔히 나타납니다. 따라서 수치는 단독의 다듬어진 “정확도 점수”가 아니라 진단용으로 읽어야 합니다.
동영상과 참조 텍스트. **참조 WebVTT(
ref.vtt)**는 원본 동영상과 함께 제공된 자막 텍스트(WebVTT 형식으로 export한 것)입니다. **가설(model.vtt)**은 동일한 원 오디오에 대한 Whisper large-v3-turbo 출력입니다. 지표는 그 자막과 이번 ASR 실행을 비교합니다. “우리 파이프라인이 YouTube가 자막으로 제공하는 것과 얼마나 가까운가”에 대한 실무적 기준선이며, 사람이 검증한 정답 전사(ground truth)에 대한 주장이 아닙니다.1. 이 벤치마크가 중요한 이유
YouTube 스타일 음성은 실제 워크플로우에 널리 있습니다. 가변 마이크 품질, 음악 베드, 컷, 긴 독백이나 대화 등입니다. 실제 플랫폼 자막을 참조로 ASR을 평가하면 다음과 같은 구체적 질문에 답할 수 있습니다. 동일한 오디오에 우리의 Whisper 기반 스택을 돌리면, 텍스트는 시청자가 이미 자막으로 보는 내용에서 얼마나 어긋나는가? 자막 QA, 콘텐츠 재활용, 검색 색인 등 “충분히 좋음”은 제품에 달려 있지만 수치는 재현 가능해야 하는 영역에서 유용합니다.
2. 테스트 설정
아래 값은 이 케이스의
other.yaml과 result.json에서 온 것입니다(YAML 메타데이터가 스코어러 출력에 붙는 디렉터리 모드).| Field | Value |
|---|---|
| Source | YouTube video (audio aligned to that upload) |
| Date (processing window) | 2026-03-29 (processtime-at → completed-at in other.yaml) |
| Language | English |
| Whisper model | large-v3-turbo |
| Audio duration (YAML label) | 17:39 |
| Audio duration (scorer, from VTT) | 1059.88 s (≈ 17.7 minutes) |
| STT processing time | 175 s (sttProcessingTimeSeconds in result.json, from YAML timestamps) |
| RTF | 0.165 (from result.json) |
YAML의 월클록 구간: 2026-03-29 16:04:37 → 2026-03-29 16:07:32(175초 처리 시간과 일치).
3. 평가 방법론
참조와 가설은 WebVTT 파일입니다. 큐 텍스트를 추출한 뒤 채점 전에 정규화(대소문자, 구두점, 가벼운 정리)합니다.
단어 수준 정렬
토큰 시퀀스를 Levenshtein 스타일 동적 계획으로 정렬하고, 백트래킹으로 참조 길이 N에 대한 치환(S), 삭제(D), **삽입(I)**을 얻습니다.
[
\mathrm{WER} = \frac{S + D + I}{N}, \qquad \mathrm{Accuracy} = 1 - \mathrm{WER}.
]
Character Error Rate(CER)
공백을 제거하고, 문자 편집 거리는 문자 수준 Levenshtein 거리입니다.
[
\mathrm{CER} = \frac{\text{Character edit distance}}{\text{Reference character count (no spaces)}}.
]
Real-Time Factor(RTF)
[
\mathrm{RTF} = \frac{\text{STT processing time}}{\text{Audio duration}}.
]
RTF가 1 미만이면 이번 실행에서 실시간보다 빠르게 디코딩했음을 뜻합니다.
4. 모델 개요
Whisper large-v3-turbo는 더 무거운 “large” 변형에 비해 처리량을 개선하면서 강한 품질을 목표로 합니다(동작은 구현과 하드웨어에 따름). 범용 다국어 ASR로, 문자 그대로의 완벽함을 가정하지 않는 초안 전사, 검색, 자막 초안에 적합합니다. 이 벤치마크는
other.yaml에 기록된 하나의 디코드 구성만 사용하며, 디코드 옵션·VAD·후처리를 훑지 않습니다.5. 결과(result.json에서)
정확한 지표:
- 참조 단어 수(N): 9627
- 치환(S): 60
- 삭제(D): 6449
- 삽입(I): 0
- WER: 0.6761192479484782
- Accuracy: 0.3238807520515218
- 참조 문자 수: 38334
- 문자 편집 거리: 25696
- CER: 0.6703187770647467
- 오디오 길이(초): 1059.8809999999999
- STT 처리 시간(초): 175
- RTF: 0.16511287587946197
- 평가 스크립트 실행 시간(초): 25.612
읽기 쉽게 반올림
- WER ≈ 67.6%; accuracy ≈ 32.4%
- CER ≈ 67.0%
- 참조 문자 약 38.3k에 대해 약 25.7k의 문자 편집
- RTF ≈ 0.165×(실시간의 약 6배 속도)
6. 오류 패턴 분석
삽입은 0이고 삭제가 치환을 압도합니다(6449 대 60). 이는 “추가 필러가 많은 노이즈 ASR”의 전형이 아니라, 이 정렬에서 가설이 맞지 않은 참조 텍스트의 큰 구간을 가리킵니다. 길이 불일치, 다른 분절, 또는 ASR이 들은 것보다 참조가 더 많은 내용을 포괄하는 경우(예: 자막 파일 vs 오디오 구간)와 일치합니다. **CER ≈ 67%**는 격차가 소수의 단어 바꿈이 아니라 넓다는 점을 보강합니다.
제품 팀:동일한 오디오 창, 동일한 언어, 자막보내기와 모델 출력 간 비교 가능한 텍스트 정규화를 확인하기 전에는 구어체 의미로 “Whisper가 단어의 68%를 잘못 들었다”고 해석하지 마십시오.
7. 핵심 인사이트
- 속도: RTF ≈ 0.17은 긴 클립 일괄 처리에 매력적입니다.
- 정확도: 충실한 인용이 필요하면 약 68% WER은 검토 없이는 출판 준비가 아닙니다.
- 오류 형태: 삭제 위주, 삽입 0 — 모델 손보기 전에 페어링과 커버리지를 감사하십시오.
- 시나리오 현실성: 실제 YouTube 출처의 연속 영어 약 18분은 장난감 클립보다 대표적이지만, 여전히 하나의 동영상과 하나의 모델 설정입니다.
- 참조 선택: 플랫폼 자막을 쓰면 테스트가 시청자에게 보이는 기준선에 고정되며, 사람의 재전사와 다를 수 있습니다.
8. 이 시나리오에 가장 좋은 모델
“이 클립에서 large-v3-turbo, 참조는 YouTube 자막”이라는 좁은 범위에서, 이번 실행은 문서화된 기준선입니다. 이후 비교를 위해 처리량(RTF)과 정량적 불일치(WER/CER)를 고정합니다. 모든 영어 YouTube 콘텐츠에 이 모델이 최선이라는 주장은 아닙니다.
9. 중립적 최종 판단
내부 초안, 주제 태깅, 대략적 검색에서는 이해관계자가 오류율을 수용하고 중요 구간을 검증한다면 낮은 RTF로 이 스택이 쓸 만할 수 있습니다.
문자 그대로 인용, 규정 준수, 접근성에 중요한 자막의 경우 **단어 수준 accuracy 약 32%**와 삭제 위주 오류는 인간 검토 또는 정렬 수정이 여전히 필수임을 의미합니다. 입력이 바뀔 때마다 스코어러를 다시 실행하십시오. 방법론은 계속 비교 가능합니다.
원본 자료
케이스 폴더 이름
{case-name} = 20260329(에셋 게시 시 리포지토리의 test-transcripts/ 아래에 미러).- 원본 동영상(오디오 소스): https://www.youtube.com/watch?v=E73XCmLAFe8 — 참조 자막은 이 동영상에 제공된 자막(
ref.vtt로 export). - 참조 전사(VTT):
test-transcripts/{case-name}/ref.vtt - 모델 전사(VTT):
test-transcripts/{case-name}/model.vtt - 실행 메타데이터:
test-transcripts/{case-name}/other.yaml - 사전 계산된 평가 지표:
test-transcripts/{case-name}/result.json
채점에는 이 리포지토리의
scripts/evaluate-vtt-metrics.js를 사용합니다. 긴 전사에는 필요 시 힙 한도를 올린 Node로 실행하십시오(예: NODE_OPTIONS=--max-old-space-size=8192).