Whisper Medium 영어 YouTube 오디오 테스트 — 2026-03-30 벤치마크 (WER, CER, RTF)

2026-03-30Test

Eric King

Author

이번 평가는 whisper-model: medium, language: English 고정 구성으로 수행했습니다. result.json strict 지표는 WER 68.23%, **Accuracy 31.77%**이며, 오류는 삭제가 압도적입니다(D=8718, S=131, I=0). 이는 단순 오인식보다 참조 자막과의 커버리지/정렬 차이가 크다는 신호로 해석하는 것이 합리적입니다.

ref.vtt는 원본 영상의 캡션 트랙이고 model.vtt는 모델 출력입니다. 따라서 본 벤치마크는 “모델 출력이 플랫폼 자막과 얼마나 일치하는가”를 보는 실무형 비교이며, 수작업 골드 라벨 평가와는 목적이 다릅니다.

1. Why This Benchmark Matters

장시간 YouTube 오디오는 실제 환경에 가깝습니다. 말속도 변화, 편집, 고유명사, 주제 전환이 함께 나타나므로 짧은 데모보다 운영 의사결정에 유용한 신호를 제공합니다.

2. Testing Setup

Source: https://www.youtube.com/watch?v=EatCzpKNTMs
Language: English
Model: Whisper medium
YAML duration: 22:44
Evaluated duration: 1364 sec (~22.73 min)
STT processing: 365 sec
RTF: 0.26759530791788855
Time window: 2026-03-30 19:49:57 → 2026-03-30 19:56:02

3. Evaluation Methodology (`scripts/evaluate-vtt-metrics.js`)

스크립트는 VTT 텍스트를 추출/정규화한 뒤 Levenshtein 정렬로 S/D/I/N을 계산합니다.

[ \mathrm{WER} = rac{S + D + I}{N},\quad \mathrm{Accuracy}=1-\mathrm{WER} ] [ \mathrm{CER} = rac{ ext{Character Edit Distance}}{ ext{Reference Character Count}} ] [ \mathrm{RTF}=rac{ ext{Processing Time}}{ ext{Audio Duration}} ]

현재 결과는 strictMetrics와 relaxedMetrics를 함께 출력합니다.

4. Model Overview

Whisper medium은 속도와 정확도 균형을 노릴 때 자주 선택되는 범용 설정입니다. 초안 전사/검색 인덱싱에는 유용하지만, 인용/규정 준수 용도에는 추가 검증이 필요합니다.

5. Results (From `result.json`)

Strict / metrics

N=12970, S=131, D=8718, I=0
WER=0.6822667694680031
Accuracy=0.31773323053199687
CER=0.6702676587109866
Character edit distance=34683
Reference characters=51745
Audio duration=1364
STT processing=365
RTF=0.26759530791788855

Relaxed

WER=0.682112567463377
Accuracy=0.317887432536623
CER=0.6700148518721175

Rounded

Strict: WER≈68.23%, Accuracy≈31.77%, CER≈67.03%
Relaxed: WER≈68.21%, Accuracy≈31.79%, CER≈67.00%
RTF≈0.268 (~3.7x real-time)

6. Error Pattern Analysis

I=0이고 D가 S보다 매우 큽니다. 즉, 핵심 문제는 표기 차이보다 커버리지/정렬 불일치일 가능성이 큽니다. strict와 relaxed 차이가 작다는 점도 같은 결론을 뒷받침합니다.

7. Key Insights

처리 속도는 실무 배치에 충분히 빠름
현재 정확도로는 고신뢰 게시용 전사에 부족
모델 튜닝 전에 데이터 페어링/세그먼트 정렬 점검이 우선
strict/relaxed가 유사하여 결과 해석이 안정적
단일 샘플이므로 일반화에는 추가 벤치마크 필요

8. Best Model for This Scenario

이 영상·이 참조 조건에 한정하면 Whisper medium은 비교 가능한 baseline으로 유의미합니다. 다만 전체 영어 YouTube 시나리오의 최적 모델을 의미하진 않습니다.

9. Neutral Final Verdict

초안 작성, 검색, 주제 추출 목적이라면 활용 가능성이 있습니다. 반면 정확 인용/컴플라이언스/접근성 자막 용도라면 사람 검수 또는 더 강한 설정이 필요합니다.

Source Materials

Original audio (video): https://www.youtube.com/watch?v=EatCzpKNTMs
Reference transcript (VTT): test-transcripts/{case-name}/ref.vtt
Model transcript (VTT): test-transcripts/{case-name}/model.vtt
Run metadata: test-transcripts/{case-name}/other.yaml
Precomputed evaluation metrics: test-transcripts/{case-name}/result.json

{case-name} = 20260330. Evaluation script: scripts/evaluate-vtt-metrics.js.

Whisper Medium 영어 YouTube 오디오 테스트 — 2026-03-30 벤치마크 (WER, CER, RTF)

1. Why This Benchmark Matters

2. Testing Setup

3. Evaluation Methodology (`scripts/evaluate-vtt-metrics.js`)

4. Model Overview

5. Results (From `result.json`)

6. Error Pattern Analysis

7. Key Insights

8. Best Model for This Scenario

9. Neutral Final Verdict

Source Materials

관련 게시물

Whisper Medium 영어 YouTube 오디오 테스트 — 2026-03-31 벤치마크 (WER, CER, RTF)

영어 인터뷰를 AI로 받아써 봤습니다 — 2026년 2월 26일 결과 (Whisper BASE, 약 11분 오디오)

지금 무료로 체험하기

Whisper Medium 영어 YouTube 오디오 테스트 — 2026-03-30 벤치마크 (WER, CER, RTF)

1. Why This Benchmark Matters

2. Testing Setup

3. Evaluation Methodology (scripts/evaluate-vtt-metrics.js)

4. Model Overview

5. Results (From result.json)

6. Error Pattern Analysis

7. Key Insights

8. Best Model for This Scenario

9. Neutral Final Verdict

Source Materials

관련 게시물

Whisper Medium 영어 YouTube 오디오 테스트 — 2026-03-31 벤치마크 (WER, CER, RTF)

영어 인터뷰를 AI로 받아써 봤습니다 — 2026년 2월 26일 결과 (Whisper BASE, 약 11분 오디오)

지금 무료로 체험하기

3. Evaluation Methodology (`scripts/evaluate-vtt-metrics.js`)

5. Results (From `result.json`)