영어 YouTube 오디오에서의 Whisper Large v3 Turbo — 2026년 3월 29일 벤치마크(WER, CER, RTF)

이 글은 YouTube 업로드에서 가져온 약 18분 분량의 영어 오디오에 대한 고정 구성 단일 실행을 정리합니다. 스코어러는 **WER ≈ 67.6%**를 보고하며 삭제가 지배적입니다(6 449 대 60 치환, 0 삽입). 이런 프로파일은 가설 전사가 참조에 대해 커버리지가 잘 맞지 않음을 시사합니다. 참조가 플랫폼 자막 트랙이고 ASR 출력이 다른 분절이나 길이를 반영할 때 흔히 나타납니다. 따라서 수치는 단독의 다듬어진 “정확도 점수”가 아니라 진단용으로 읽어야 합니다.

동영상과 참조 텍스트. **참조 WebVTT(ref.vtt)**는 원본 동영상과 함께 제공된 자막 텍스트(WebVTT 형식으로 export한 것)입니다. **가설(model.vtt)**은 동일한 원 오디오에 대한 Whisper large-v3-turbo 출력입니다. 지표는 그 자막과 이번 ASR 실행을 비교합니다. “우리 파이프라인이 YouTube가 자막으로 제공하는 것과 얼마나 가까운가”에 대한 실무적 기준선이며, 사람이 검증한 정답 전사(ground truth)에 대한 주장이 아닙니다.

1. 이 벤치마크가 중요한 이유

YouTube 스타일 음성은 실제 워크플로우에 널리 있습니다. 가변 마이크 품질, 음악 베드, 컷, 긴 독백이나 대화 등입니다. 실제 플랫폼 자막을 참조로 ASR을 평가하면 다음과 같은 구체적 질문에 답할 수 있습니다. 동일한 오디오에 우리의 Whisper 기반 스택을 돌리면, 텍스트는 시청자가 이미 자막으로 보는 내용에서 얼마나 어긋나는가? 자막 QA, 콘텐츠 재활용, 검색 색인 등 “충분히 좋음”은 제품에 달려 있지만 수치는 재현 가능해야 하는 영역에서 유용합니다.

2. 테스트 설정

아래 값은 이 케이스의 other.yaml과 result.json에서 온 것입니다(YAML 메타데이터가 스코어러 출력에 붙는 디렉터리 모드).

Field	Value
Source	YouTube video (audio aligned to that upload)
Date (processing window)	2026-03-29 (`processtime-at` → `completed-at` in `other.yaml`)
Language	English
Whisper model	large-v3-turbo
Audio duration (YAML label)	17:39
Audio duration (scorer, from VTT)	1059.88 s (≈ 17.7 minutes)
STT processing time	175 s (`sttProcessingTimeSeconds` in `result.json`, from YAML timestamps)
RTF	0.165 (from `result.json`)

YAML의 월클록 구간: 2026-03-29 16:04:37 → 2026-03-29 16:07:32(175초 처리 시간과 일치).

3. 평가 방법론

참조와 가설은 WebVTT 파일입니다. 큐 텍스트를 추출한 뒤 채점 전에 정규화(대소문자, 구두점, 가벼운 정리)합니다.

단어 수준 정렬

토큰 시퀀스를 Levenshtein 스타일 동적 계획으로 정렬하고, 백트래킹으로 참조 길이 N에 대한 치환(S), 삭제(D), **삽입(I)**을 얻습니다.

[ \mathrm{WER} = \frac{S + D + I}{N}, \qquad \mathrm{Accuracy} = 1 - \mathrm{WER}. ]

Character Error Rate(CER)

공백을 제거하고, 문자 편집 거리는 문자 수준 Levenshtein 거리입니다.

[ \mathrm{CER} = \frac{\text{Character edit distance}}{\text{Reference character count (no spaces)}}. ]

Real-Time Factor(RTF)

[ \mathrm{RTF} = \frac{\text{STT processing time}}{\text{Audio duration}}. ]

RTF가 1 미만이면 이번 실행에서 실시간보다 빠르게 디코딩했음을 뜻합니다.

4. 모델 개요

Whisper large-v3-turbo는 더 무거운 “large” 변형에 비해 처리량을 개선하면서 강한 품질을 목표로 합니다(동작은 구현과 하드웨어에 따름). 범용 다국어 ASR로, 문자 그대로의 완벽함을 가정하지 않는 초안 전사, 검색, 자막 초안에 적합합니다. 이 벤치마크는 other.yaml에 기록된 하나의 디코드 구성만 사용하며, 디코드 옵션·VAD·후처리를 훑지 않습니다.

5. 결과(`result.json`에서)

정확한 지표:

참조 단어 수(N): 9627
치환(S): 60
삭제(D): 6449
삽입(I): 0
WER: 0.6761192479484782
Accuracy: 0.3238807520515218
참조 문자 수: 38334
문자 편집 거리: 25696
CER: 0.6703187770647467
오디오 길이(초): 1059.8809999999999
STT 처리 시간(초): 175
RTF: 0.16511287587946197
평가 스크립트 실행 시간(초): 25.612

읽기 쉽게 반올림

WER ≈ 67.6%; accuracy ≈ 32.4%
CER ≈ 67.0%
참조 문자 약 38.3k에 대해 약 25.7k의 문자 편집
RTF ≈ 0.165×(실시간의 약 6배 속도)

6. 오류 패턴 분석

삽입은 0이고 삭제가 치환을 압도합니다(6449 대 60). 이는 “추가 필러가 많은 노이즈 ASR”의 전형이 아니라, 이 정렬에서 가설이 맞지 않은 참조 텍스트의 큰 구간을 가리킵니다. 길이 불일치, 다른 분절, 또는 ASR이 들은 것보다 참조가 더 많은 내용을 포괄하는 경우(예: 자막 파일 vs 오디오 구간)와 일치합니다. **CER ≈ 67%**는 격차가 소수의 단어 바꿈이 아니라 넓다는 점을 보강합니다.

제품 팀:동일한 오디오 창, 동일한 언어, 자막보내기와 모델 출력 간 비교 가능한 텍스트 정규화를 확인하기 전에는 구어체 의미로 “Whisper가 단어의 68%를 잘못 들었다”고 해석하지 마십시오.

7. 핵심 인사이트

속도: RTF ≈ 0.17은 긴 클립 일괄 처리에 매력적입니다.
정확도: 충실한 인용이 필요하면 약 68% WER은 검토 없이는 출판 준비가 아닙니다.
오류 형태: 삭제 위주, 삽입 0 — 모델 손보기 전에 페어링과 커버리지를 감사하십시오.
시나리오 현실성: 실제 YouTube 출처의 연속 영어 약 18분은 장난감 클립보다 대표적이지만, 여전히 하나의 동영상과 하나의 모델 설정입니다.
참조 선택: 플랫폼 자막을 쓰면 테스트가 시청자에게 보이는 기준선에 고정되며, 사람의 재전사와 다를 수 있습니다.

8. 이 시나리오에 가장 좋은 모델

“이 클립에서 large-v3-turbo, 참조는 YouTube 자막”이라는 좁은 범위에서, 이번 실행은 문서화된 기준선입니다. 이후 비교를 위해 처리량(RTF)과 정량적 불일치(WER/CER)를 고정합니다. 모든 영어 YouTube 콘텐츠에 이 모델이 최선이라는 주장은 아닙니다.

9. 중립적 최종 판단

내부 초안, 주제 태깅, 대략적 검색에서는 이해관계자가 오류율을 수용하고 중요 구간을 검증한다면 낮은 RTF로 이 스택이 쓸 만할 수 있습니다.

문자 그대로 인용, 규정 준수, 접근성에 중요한 자막의 경우 **단어 수준 accuracy 약 32%**와 삭제 위주 오류는 인간 검토 또는 정렬 수정이 여전히 필수임을 의미합니다. 입력이 바뀔 때마다 스코어러를 다시 실행하십시오. 방법론은 계속 비교 가능합니다.

원본 자료

케이스 폴더 이름 {case-name} = 20260329(에셋 게시 시 리포지토리의 test-transcripts/ 아래에 미러).

원본 동영상(오디오 소스): https://www.youtube.com/watch?v=E73XCmLAFe8 — 참조 자막은 이 동영상에 제공된 자막(ref.vtt로 export).
참조 전사(VTT): test-transcripts/{case-name}/ref.vtt
모델 전사(VTT): test-transcripts/{case-name}/model.vtt
실행 메타데이터: test-transcripts/{case-name}/other.yaml
사전 계산된 평가 지표: test-transcripts/{case-name}/result.json

채점에는 이 리포지토리의 scripts/evaluate-vtt-metrics.js를 사용합니다. 긴 전사에는 필요 시 힙 한도를 올린 Node로 실행하십시오(예: NODE_OPTIONS=--max-old-space-size=8192).

영어 YouTube 오디오에서의 Whisper Large v3 Turbo — 2026년 3월 29일 벤치마크(WER, CER, RTF)

1. 이 벤치마크가 중요한 이유

2. 테스트 설정

3. 평가 방법론

4. 모델 개요

5. 결과(`result.json`에서)

6. 오류 패턴 분석

7. 핵심 인사이트

8. 이 시나리오에 가장 좋은 모델

9. 중립적 최종 판단

원본 자료

관련 게시물

Whisper Medium 영어 YouTube 오디오 테스트 — 2026-03-31 벤치마크 (WER, CER, RTF)

Whisper Medium 영어 YouTube 오디오 테스트 — 2026-03-30 벤치마크 (WER, CER, RTF)

영어 인터뷰에서의 Whisper Large v3 Turbo — 2026년 3월 28일 벤치마크(WER, CER, RTF)

지금 무료로 체험하기

영어 YouTube 오디오에서의 Whisper Large v3 Turbo — 2026년 3월 29일 벤치마크(WER, CER, RTF)

1. 이 벤치마크가 중요한 이유

2. 테스트 설정

3. 평가 방법론

4. 모델 개요

5. 결과(result.json에서)

6. 오류 패턴 분석

7. 핵심 인사이트

8. 이 시나리오에 가장 좋은 모델

9. 중립적 최종 판단

원본 자료

관련 게시물

Whisper Medium 영어 YouTube 오디오 테스트 — 2026-03-31 벤치마크 (WER, CER, RTF)

Whisper Medium 영어 YouTube 오디오 테스트 — 2026-03-30 벤치마크 (WER, CER, RTF)

영어 인터뷰에서의 Whisper Large v3 Turbo — 2026년 3월 28일 벤치마크(WER, CER, RTF)

지금 무료로 체험하기

5. 결과(`result.json`에서)