🎉 정식 오픈! 체험 기간에는 모든 기능이 무료입니다 — 요금제는 곧 공개됩니다.

Whisper Medium 영어 YouTube 오디오 테스트 — 2026-03-31 벤치마크 (WER, CER, RTF)

Whisper Medium 영어 YouTube 오디오 테스트 — 2026-03-31 벤치마크 (WER, CER, RTF)

2026-03-31Test
Eric King

Eric King

Author


이번 평가는 whisper-model: medium, language: English 고정 구성으로 수행했습니다. result.json strict 지표는 WER 67.75%, **Accuracy 32.25%**이며, 오류는 삭제가 압도적입니다(D=5722, S=68, I=0). 이는 단순 오인식보다 참조 자막과의 커버리지/정렬 차이가 크다는 신호로 해석하는 것이 합리적입니다.
ref.vtt는 원본 영상의 캡션 트랙이고 model.vtt는 모델 출력입니다. 따라서 본 벤치마크는 “모델 출력이 플랫폼 자막과 얼마나 일치하는가”를 보는 실무형 비교이며, 수작업 골드 라벨 평가와는 목적이 다릅니다.

1. Why This Benchmark Matters

장시간 YouTube 오디오는 실제 환경에 가깝습니다. 말속도 변화, 편집, 고유명사, 주제 전환이 함께 나타나므로 짧은 데모보다 운영 의사결정에 유용한 신호를 제공합니다.

2. Testing Setup

  • Source: https://www.youtube.com/watch?v=7J96ESznKMQ
  • Language: English
  • Model: Whisper medium
  • YAML duration: 17:20
  • Evaluated duration: 1040 sec (~17.33 min)
  • STT processing: 133 sec
  • RTF: 0.12788461538461537
  • Time window: 2026-03-31 19:20:56 → 2026-03-31 19:23:09

3. Evaluation Methodology (scripts/evaluate-vtt-metrics.js)

스크립트는 VTT 텍스트를 추출/정규화한 뒤 Levenshtein 정렬로 S/D/I/N을 계산합니다.
[ \mathrm{WER} = \frac{S + D + I}{N},\quad \mathrm{Accuracy}=1-\mathrm{WER} ] [ \mathrm{CER} = \frac{\text{Character Edit Distance}}{\text{Reference Character Count}} ] [ \mathrm{RTF}=\frac{\text{Processing Time}}{\text{Audio Duration}} ]
현재 결과는 strictMetricsrelaxedMetrics를 함께 출력합니다.

4. Model Overview

Whisper medium은 속도와 정확도 균형을 노릴 때 자주 선택되는 범용 설정입니다. 초안 전사/검색 인덱싱에는 유용하지만, 인용/규정 준수 용도에는 추가 검증이 필요합니다.

5. Results (From result.json)

Strict / metrics
  • N=8546, S=68, D=5722, I=0
  • WER=0.6775099461736485
  • Accuracy=0.32249005382635154
  • CER=0.6670790930743296
  • Character edit distance=21566
  • Reference characters=32329
  • Audio duration=1040
  • STT processing=133
  • RTF=0.12788461538461537
Relaxed
  • WER=0.6775099461736485
  • Accuracy=0.32249005382635154
  • CER=0.666760334707683
Rounded
  • Strict: WER≈67.75%, Accuracy≈32.25%, CER≈66.71%
  • Relaxed: WER≈67.75%, Accuracy≈32.25%, CER≈66.68%
  • RTF≈0.128 (~7.8x real-time)

6. Error Pattern Analysis

I=0이고 DS보다 매우 큽니다. 즉, 핵심 문제는 표기 차이보다 커버리지/정렬 불일치일 가능성이 큽니다. strict와 relaxed 차이가 작다는 점도 같은 결론을 뒷받침합니다.

7. Key Insights

  • 처리 속도는 실무 배치에 충분히 빠름
  • 현재 정확도로는 고신뢰 게시용 전사에 부족
  • 모델 튜닝 전에 데이터 페어링/세그먼트 정렬 점검이 우선
  • strict/relaxed가 유사하여 결과 해석이 안정적
  • 단일 샘플이므로 일반화에는 추가 벤치마크 필요

8. Best Model for This Scenario

이 영상·이 참조 조건에 한정하면 Whisper medium은 비교 가능한 baseline으로 유의미합니다. 다만 전체 영어 YouTube 시나리오의 최적 모델을 의미하진 않습니다.

9. Neutral Final Verdict

초안 작성, 검색, 주제 추출 목적이라면 활용 가능성이 있습니다. 반면 정확 인용/컴플라이언스/접근성 자막 용도라면 사람 검수 또는 더 강한 설정이 필요합니다.

Source Materials

  • Original audio (video): https://www.youtube.com/watch?v=7J96ESznKMQ
  • Reference transcript (VTT): test-transcripts/{case-name}/ref.vtt
  • Model transcript (VTT): test-transcripts/{case-name}/model.vtt
  • Run metadata: test-transcripts/{case-name}/other.yaml
  • Precomputed evaluation metrics: test-transcripts/{case-name}/result.json
{case-name} = 20260331. Evaluation script: scripts/evaluate-vtt-metrics.js.

지금 무료로 체험하기

지금 바로 저희 AI 음성·오디오·영상 서비스를 체험해 보세요! 고정밀 음성-텍스트 전사, 다국어 번역, 지능형 화자 분리를 제공할 뿐 아니라, 동영상 자동 자막 생성, 오디오·영상 콘텐츠의 스마트 편집, 음성·영상 동기 분석까지 지원합니다. 회의 기록, 숏폼 영상 제작, 팟캐스트 제작 등 모든 상황을 완전히 커버합니다. 지금 무료 체험을 시작해 보세요!

온라인 사운드 to 텍스트무료 사운드 to 텍스트사운드 텍스트 변환기사운드 to 텍스트 MP3사운드 to 텍스트 WAV사운드 to 텍스트 (타임스탬프 포함)Sound to Text for MeetingsSound to Text Multi Language사운드 to 텍스트 자막WAV를 텍스트로 변환음성 텍스트 변환온라인 음성 텍스트 변환음성 텍스트 변환MP3 텍스트 변환음성 녹음을 텍스트로 변환온라인 음성 입력타임스탬프가 있는 음성 텍스트 변환실시간 음성 텍스트 변환긴 오디오 음성 텍스트 변환비디오 음성 텍스트 변환YouTube 음성 텍스트 변환동영상 편집 음성 텍스트 변환자막 음성 텍스트 변환팟캐스트 음성 텍스트 변환인터뷰 음성 텍스트 변환인터뷰 오디오 텍스트 변환녹음 음성 텍스트 변환회의 음성 텍스트 변환강의 음성 텍스트 변환음성 메모 텍스트 변환다국어 음성 텍스트 변환정확한 음성 텍스트 변환빠른 음성 텍스트 변환Premiere Pro 음성 텍스트 변환 대안DaVinci 음성 텍스트 변환 대안VEED 음성 텍스트 변환 대안InVideo 음성 텍스트 변환 대안Otter.ai 음성 텍스트 변환 대안Descript 음성 텍스트 변환 대안Trint 음성 텍스트 변환 대안Rev 음성 텍스트 변환 대안Sonix 음성 텍스트 변환 대안Happy Scribe 음성 텍스트 변환 대안Zoom 음성 텍스트 변환 대안Google Meet 음성 텍스트 변환 대안Microsoft Teams 음성 텍스트 변환 대안Fireflies.ai 음성 텍스트 변환 대안Fathom 음성 텍스트 변환 대안FlexClip 음성 텍스트 변환 대안Kapwing 음성 텍스트 변환 대안Canva 음성 텍스트 변환 대안긴 오디오 음성 텍스트 변환AI 음성 텍스트 변환무료 음성 텍스트 변환광고 없는 음성 텍스트 변환시끄러운 오디오 음성 텍스트 변환시간이 있는 음성 텍스트 변환오디오에서 자막 생성팟캐스트 전사 온라인고객 통화 전사TikTok 음성을 텍스트로TikTok 오디오를 텍스트로YouTube 음성 텍스트 변환YouTube 오디오 텍스트 변환음성 메모 텍스트 변환WhatsApp 음성 메시지 텍스트 변환Telegram 음성 메시지 텍스트 변환Discord 통화 전사Twitch 음성 텍스트 변환Skype 음성 텍스트 변환Messenger 음성 텍스트 변환LINE 음성 메시지 텍스트 변환Vlog 전사 텍스트 변환설교 오디오 텍스트 변환음성 텍스트 변환오디오 텍스트 변환음성 노트 텍스트 변환음성 입력회의 음성 입력YouTube 음성 입력말해서 입력핸즈프리 입력음성을 단어로음성을 단어로온라인 음성 텍스트 변환Online Transcription Software회의 음성 텍스트 변환빠른 음성 텍스트 변환Real Time Speech to TextLive Transcription AppTikTok 음성 텍스트 변환TikTok 음성 텍스트 변환말한 것을 글로음성을 텍스트로Talk to Text FreeTalk to Text OnlineTalk to Text for YouTubeTalk to Text for SubtitlesTalk to Text for Content CreatorsTalk to Text for Meetings오디오를 타이핑으로소리를 텍스트로음성 작성 도구음성 작성 도구음성 입력법률 전사 도구의료 음성 받아쓰기 도구일본어 오디오 전사한국어 회의 전사회의 전사 도구회의 오디오 텍스트 변환강의 텍스트 변환기강의 오디오 텍스트 변환동영상 텍스트 전사TikTok 자막 생성기콜센터 전사Reels 오디오 텍스트 변환 도구MP3 텍스트 전사WAV 파일 텍스트 전사CapCut 음성 텍스트 변환CapCut 음성 텍스트 변환Voice to Text in English영어 오디오 텍스트 변환Voice to Text in SpanishVoice to Text in French프랑스어 오디오 텍스트 변환Voice to Text in German독일어 오디오 텍스트 변환Voice to Text in Japanese일본어 오디오 텍스트 변환Voice to Text in Korean한국어 오디오 텍스트 변환Voice to Text in PortugueseVoice to Text in ArabicVoice to Text in ChineseVoice to Text in HindiVoice to Text in RussianWeb Voice Typing ToolVoice Typing Website