영어 YouTube 오디오에서의 Whisper Large v3 Turbo — 2026년 3월 29일 벤치마크(WER, CER, RTF)

영어 YouTube 오디오에서의 Whisper Large v3 Turbo — 2026년 3월 29일 벤치마크(WER, CER, RTF)

2026-03-29Test
Eric King

Eric King

Author


이 글은 YouTube 업로드에서 가져온 약 18분 분량의 영어 오디오에 대한 고정 구성 단일 실행을 정리합니다. 스코어러는 **WER ≈ 67.6%**를 보고하며 삭제가 지배적입니다(6 44960 치환, 0 삽입). 이런 프로파일은 가설 전사가 참조에 대해 커버리지가 잘 맞지 않음을 시사합니다. 참조가 플랫폼 자막 트랙이고 ASR 출력이 다른 분절이나 길이를 반영할 때 흔히 나타납니다. 따라서 수치는 단독의 다듬어진 “정확도 점수”가 아니라 진단용으로 읽어야 합니다.
동영상과 참조 텍스트. **참조 WebVTT(ref.vtt)**는 원본 동영상과 함께 제공된 자막 텍스트(WebVTT 형식으로 export한 것)입니다. **가설(model.vtt)**은 동일한 원 오디오에 대한 Whisper large-v3-turbo 출력입니다. 지표는 그 자막이번 ASR 실행을 비교합니다. “우리 파이프라인이 YouTube가 자막으로 제공하는 것과 얼마나 가까운가”에 대한 실무적 기준선이며, 사람이 검증한 정답 전사(ground truth)에 대한 주장이 아닙니다.

1. 이 벤치마크가 중요한 이유

YouTube 스타일 음성은 실제 워크플로우에 널리 있습니다. 가변 마이크 품질, 음악 베드, 컷, 긴 독백이나 대화 등입니다. 실제 플랫폼 자막을 참조로 ASR을 평가하면 다음과 같은 구체적 질문에 답할 수 있습니다. 동일한 오디오에 우리의 Whisper 기반 스택을 돌리면, 텍스트는 시청자가 이미 자막으로 보는 내용에서 얼마나 어긋나는가? 자막 QA, 콘텐츠 재활용, 검색 색인 등 “충분히 좋음”은 제품에 달려 있지만 수치는 재현 가능해야 하는 영역에서 유용합니다.

2. 테스트 설정

아래 값은 이 케이스의 other.yamlresult.json에서 온 것입니다(YAML 메타데이터가 스코어러 출력에 붙는 디렉터리 모드).
FieldValue
SourceYouTube video (audio aligned to that upload)
Date (processing window)2026-03-29 (processtime-atcompleted-at in other.yaml)
LanguageEnglish
Whisper modellarge-v3-turbo
Audio duration (YAML label)17:39
Audio duration (scorer, from VTT)1059.88 s (≈ 17.7 minutes)
STT processing time175 s (sttProcessingTimeSeconds in result.json, from YAML timestamps)
RTF0.165 (from result.json)
YAML의 월클록 구간: 2026-03-29 16:04:372026-03-29 16:07:32(175초 처리 시간과 일치).

3. 평가 방법론

참조와 가설은 WebVTT 파일입니다. 큐 텍스트를 추출한 뒤 채점 전에 정규화(대소문자, 구두점, 가벼운 정리)합니다.
단어 수준 정렬
토큰 시퀀스를 Levenshtein 스타일 동적 계획으로 정렬하고, 백트래킹으로 참조 길이 N에 대한 치환(S), 삭제(D), **삽입(I)**을 얻습니다.
[ \mathrm{WER} = \frac{S + D + I}{N}, \qquad \mathrm{Accuracy} = 1 - \mathrm{WER}. ]
Character Error Rate(CER)
공백을 제거하고, 문자 편집 거리는 문자 수준 Levenshtein 거리입니다.
[ \mathrm{CER} = \frac{\text{Character edit distance}}{\text{Reference character count (no spaces)}}. ]
Real-Time Factor(RTF)
[ \mathrm{RTF} = \frac{\text{STT processing time}}{\text{Audio duration}}. ]
RTF가 1 미만이면 이번 실행에서 실시간보다 빠르게 디코딩했음을 뜻합니다.

4. 모델 개요

Whisper large-v3-turbo는 더 무거운 “large” 변형에 비해 처리량을 개선하면서 강한 품질을 목표로 합니다(동작은 구현과 하드웨어에 따름). 범용 다국어 ASR로, 문자 그대로의 완벽함을 가정하지 않는 초안 전사, 검색, 자막 초안에 적합합니다. 이 벤치마크는 other.yaml에 기록된 하나의 디코드 구성만 사용하며, 디코드 옵션·VAD·후처리를 훑지 않습니다.

5. 결과(result.json에서)

정확한 지표:
  • 참조 단어 수(N): 9627
  • 치환(S): 60
  • 삭제(D): 6449
  • 삽입(I): 0
  • WER: 0.6761192479484782
  • Accuracy: 0.3238807520515218
  • 참조 문자 수: 38334
  • 문자 편집 거리: 25696
  • CER: 0.6703187770647467
  • 오디오 길이(초): 1059.8809999999999
  • STT 처리 시간(초): 175
  • RTF: 0.16511287587946197
  • 평가 스크립트 실행 시간(초): 25.612
읽기 쉽게 반올림
  • WER ≈ 67.6%; accuracy ≈ 32.4%
  • CER ≈ 67.0%
  • 참조 문자 약 38.3k에 대해 약 25.7k의 문자 편집
  • RTF ≈ 0.165×(실시간의 약 6배 속도)

6. 오류 패턴 분석

삽입은 0이고 삭제가 치환을 압도합니다(644960). 이는 “추가 필러가 많은 노이즈 ASR”의 전형이 아니라, 이 정렬에서 가설이 맞지 않은 참조 텍스트의 큰 구간을 가리킵니다. 길이 불일치, 다른 분절, 또는 ASR이 들은 것보다 참조가 더 많은 내용을 포괄하는 경우(예: 자막 파일 vs 오디오 구간)와 일치합니다. **CER ≈ 67%**는 격차가 소수의 단어 바꿈이 아니라 넓다는 점을 보강합니다.
제품 팀:동일한 오디오 창, 동일한 언어, 자막보내기와 모델 출력 간 비교 가능한 텍스트 정규화를 확인하기 전에는 구어체 의미로 “Whisper가 단어의 68%를 잘못 들었다”고 해석하지 마십시오.

7. 핵심 인사이트

  • 속도: RTF ≈ 0.17은 긴 클립 일괄 처리에 매력적입니다.
  • 정확도: 충실한 인용이 필요하면 약 68% WER은 검토 없이는 출판 준비가 아닙니다.
  • 오류 형태: 삭제 위주, 삽입 0 — 모델 손보기 전에 페어링과 커버리지를 감사하십시오.
  • 시나리오 현실성: 실제 YouTube 출처의 연속 영어 약 18분은 장난감 클립보다 대표적이지만, 여전히 하나의 동영상과 하나의 모델 설정입니다.
  • 참조 선택: 플랫폼 자막을 쓰면 테스트가 시청자에게 보이는 기준선에 고정되며, 사람의 재전사와 다를 수 있습니다.

8. 이 시나리오에 가장 좋은 모델

“이 클립에서 large-v3-turbo, 참조는 YouTube 자막”이라는 좁은 범위에서, 이번 실행은 문서화된 기준선입니다. 이후 비교를 위해 처리량(RTF)과 정량적 불일치(WER/CER)를 고정합니다. 모든 영어 YouTube 콘텐츠에 이 모델이 최선이라는 주장은 아닙니다.

9. 중립적 최종 판단

내부 초안, 주제 태깅, 대략적 검색에서는 이해관계자가 오류율을 수용하고 중요 구간을 검증한다면 낮은 RTF로 이 스택이 쓸 만할 수 있습니다.
문자 그대로 인용, 규정 준수, 접근성에 중요한 자막의 경우 **단어 수준 accuracy 약 32%**와 삭제 위주 오류는 인간 검토 또는 정렬 수정이 여전히 필수임을 의미합니다. 입력이 바뀔 때마다 스코어러를 다시 실행하십시오. 방법론은 계속 비교 가능합니다.

원본 자료

케이스 폴더 이름 {case-name} = 20260329(에셋 게시 시 리포지토리의 test-transcripts/ 아래에 미러).
  • 원본 동영상(오디오 소스): https://www.youtube.com/watch?v=E73XCmLAFe8 — 참조 자막은 이 동영상에 제공된 자막(ref.vtt로 export).
  • 참조 전사(VTT): test-transcripts/{case-name}/ref.vtt
  • 모델 전사(VTT): test-transcripts/{case-name}/model.vtt
  • 실행 메타데이터: test-transcripts/{case-name}/other.yaml
  • 사전 계산된 평가 지표: test-transcripts/{case-name}/result.json
채점에는 이 리포지토리의 scripts/evaluate-vtt-metrics.js를 사용합니다. 긴 전사에는 필요 시 힙 한도를 올린 Node로 실행하십시오(예: NODE_OPTIONS=--max-old-space-size=8192).

지금 무료로 체험하기

지금 바로 저희 AI 음성·오디오·영상 서비스를 체험해 보세요! 고정밀 음성-텍스트 전사, 다국어 번역, 지능형 화자 분리를 제공할 뿐 아니라, 동영상 자동 자막 생성, 오디오·영상 콘텐츠의 스마트 편집, 음성·영상 동기 분석까지 지원합니다. 회의 기록, 숏폼 영상 제작, 팟캐스트 제작 등 모든 상황을 완전히 커버합니다. 지금 무료 체험을 시작해 보세요!

온라인 사운드 to 텍스트무료 사운드 to 텍스트사운드 텍스트 변환기사운드 to 텍스트 MP3사운드 to 텍스트 WAV사운드 to 텍스트 (타임스탬프 포함)회의용 사운드-텍스트 변환Sound to Text Multi Language사운드 to 텍스트 자막WAV를 텍스트로 변환음성 텍스트 변환온라인 음성 텍스트 변환음성 텍스트 변환MP3 텍스트 변환음성 녹음을 텍스트로 변환온라인 음성 입력타임스탬프가 있는 음성 텍스트 변환실시간 음성 텍스트 변환긴 오디오 음성 텍스트 변환비디오 음성 텍스트 변환YouTube 음성 텍스트 변환동영상 편집 음성 텍스트 변환자막 음성 텍스트 변환팟캐스트 음성 텍스트 변환인터뷰 음성 텍스트 변환인터뷰 오디오 텍스트 변환녹음 음성 텍스트 변환회의 음성 텍스트 변환강의 음성 텍스트 변환음성 메모 텍스트 변환다국어 음성 텍스트 변환정확한 음성 텍스트 변환빠른 음성 텍스트 변환Premiere Pro 음성 텍스트 변환 대안DaVinci 음성 텍스트 변환 대안VEED 음성 텍스트 변환 대안InVideo 음성 텍스트 변환 대안Otter.ai 음성 텍스트 변환 대안Descript 음성 텍스트 변환 대안Trint 음성 텍스트 변환 대안Rev 음성 텍스트 변환 대안Sonix 음성 텍스트 변환 대안Happy Scribe 음성 텍스트 변환 대안Zoom 음성 텍스트 변환 대안Google Meet 음성 텍스트 변환 대안Microsoft Teams 음성 텍스트 변환 대안Fireflies.ai 음성 텍스트 변환 대안Fathom 음성 텍스트 변환 대안FlexClip 음성 텍스트 변환 대안Kapwing 음성 텍스트 변환 대안Canva 음성 텍스트 변환 대안긴 오디오 음성 텍스트 변환AI 음성 텍스트 변환무료 음성 텍스트 변환광고 없는 음성 텍스트 변환시끄러운 오디오 음성 텍스트 변환시간이 있는 음성 텍스트 변환오디오에서 자막 생성팟캐스트 전사 온라인고객 통화 전사TikTok 음성을 텍스트로TikTok 오디오를 텍스트로YouTube 음성 텍스트 변환YouTube 오디오 텍스트 변환음성 메모 텍스트 변환WhatsApp 음성 메시지 텍스트 변환Telegram 음성 메시지 텍스트 변환Discord 통화 전사Twitch 음성 텍스트 변환Skype 음성 텍스트 변환Messenger 음성 텍스트 변환LINE 음성 메시지 텍스트 변환Vlog 전사 텍스트 변환설교 오디오 텍스트 변환음성 텍스트 변환오디오 텍스트 변환음성 노트 텍스트 변환음성 입력회의 음성 입력YouTube 음성 입력말해서 입력핸즈프리 입력음성을 단어로음성을 단어로온라인 음성 텍스트 변환Online Transcription Software회의 음성 텍스트 변환빠른 음성 텍스트 변환Real Time Speech to TextLive Transcription AppTikTok 음성 텍스트 변환TikTok 음성 텍스트 변환말한 것을 글로음성을 텍스트로Talk to Text FreeTalk to Text OnlineTalk to Text for YouTubeTalk to Text for SubtitlesTalk to Text for Content CreatorsTalk to Text for Meetings오디오를 타이핑으로소리를 텍스트로음성 작성 도구음성 작성 도구음성 입력법률 전사 도구의료 음성 받아쓰기 도구일본어 오디오 전사한국어 회의 전사회의 전사 도구회의 오디오 텍스트 변환강의 텍스트 변환기강의 오디오 텍스트 변환동영상 텍스트 전사TikTok 자막 생성기콜센터 전사Reels 오디오 텍스트 변환 도구MP3 텍스트 전사WAV 파일 텍스트 전사CapCut 음성 텍스트 변환CapCut 음성 텍스트 변환Voice to Text in English영어 오디오 텍스트 변환Voice to Text in SpanishVoice to Text in French프랑스어 오디오 텍스트 변환Voice to Text in German독일어 오디오 텍스트 변환Voice to Text in Japanese일본어 오디오 텍스트 변환Voice to Text in Korean한국어 오디오 텍스트 변환Voice to Text in PortugueseVoice to Text in ArabicVoice to Text in ChineseVoice to Text in HindiVoice to Text in RussianWeb Voice Typing ToolVoice Typing Website