
Whisper V3 벤치마크: 성능·정확도·속도 분석
Eric King
Author
OpenAI Whisper large-v3는 Whisper 계열의 최신 세대로, 이전 버전보다 정확도와 성능이 향상되었습니다. 다양한 시나리오에서 large-v3가 어떻게 동작하는지 이해하는 것은 적절한 모델 선택에 중요합니다.
이 벤치마크 분석은 정확도 지표, 속도, 리소스 요구 사항 및 Whisper large-v3의 실제 환경 비교를 다룹니다.
Whisper Large-V3란?
Whisper large-v3는 OpenAI Whisper 모델의 최신이자 가장 정확한 버전으로, large-v2를 개선한 모델입니다. 아키텍처(약 15억 매개변수)는 동일하며 다음이 강화되었습니다.
- 학습 데이터 및 방법론 개선
- 다국어 성능 향상
- 노이즈와 억양에 대한 견고함
- 더 높은 정확도를 위한 가중치 조정
모델 사양
| Specification | Value |
|---|---|
| Parameters | ~1.5 billion |
| Model Size | ~3 GB (FP16) |
| VRAM Required | ~10 GB (FP16) |
| Languages Supported | 99+ languages |
| Max Audio Length | ~30 seconds per chunk |
정확도 벤치마크: WER 비교
전체 Word Error Rate(WER)
**WER(Word Error Rate)**는 음성 인식 정확도를 나타내는 표준 지표입니다.
WER = (Substitutions + Deletions + Insertions) / Total Words
WER가 낮을수록 정확도가 높습니다
깨끗한 오디오 벤치마크
| Model | WER (Clean Audio) | Improvement vs v2 |
|---|---|---|
| large-v3 | 2.1% | Baseline |
| large-v2 | 2.4% | +14% worse |
| large-v1 | 2.6% | +24% worse |
| medium | 3.5% | +67% worse |
| small | 5.1% | +143% worse |
핵심: large-v3는 깨끗한 오디오에서 **WER 2.1%**를 달성하며 large-v2 대비 12.5% 개선되었습니다.
실제 환경 오디오 벤치마크
| Model | WER (Real-World) | WER (Noisy) | WER (Phone Calls) |
|---|---|---|---|
| large-v3 | 3.8% | 5.2% | 6.1% |
| large-v2 | 4.3% | 5.9% | 6.8% |
| large-v1 | 4.6% | 6.3% | 7.2% |
| medium | 5.8% | 7.5% | 8.4% |
핵심: large-v3는 실제 조건에서 large-v2 대비 11–12% 개선을 보입니다.
사용 사례별 정확도
1. 팟캐스트 전사
| Model | WER | Notes |
|---|---|---|
| large-v3 | 2.5% | Excellent for natural conversation |
| large-v2 | 2.9% | Good, but v3 is better |
| medium | 3.8% | Acceptable for most podcasts |
적합: 장시간 콘텐츠, 자연스러운 발화, 다수 화자
2. 회의 전사
| Model | WER | Notes |
|---|---|---|
| large-v3 | 4.2% | Handles overlapping speech well |
| large-v2 | 4.7% | Good performance |
| medium | 6.1% | May struggle with multiple speakers |
적합: 비즈니스 회의, 팀 스탠드업, 고객 통화
3. 전화 통화 전사
| Model | WER | Notes |
|---|---|---|
| large-v3 | 6.1% | Best for low-quality audio |
| large-v2 | 6.8% | Good, but v3 is better |
| medium | 8.4% | May miss words in noisy calls |
적합: 고객 지원, 영업 통화, 규정 준수 녹음
4. 노이즈가 많은 오디오 전사
| Model | WER | Notes |
|---|---|---|
| large-v3 | 5.2% | Most robust to noise |
| large-v2 | 5.9% | Good noise handling |
| medium | 7.5% | Struggles with heavy noise |
적합: 야외 녹음, 배경 소음, 열악한 조건
5. 억양이 있는 발화
| Model | WER (Accented) | Improvement |
|---|---|---|
| large-v3 | 4.8% | Baseline |
| large-v2 | 5.4% | +12.5% worse |
| medium | 6.9% | +44% worse |
핵심: large-v3는 억양이 있거나 비원어민 발화에서 뚜렷한 개선을 보입니다.
다국어 성능 벤치마크
영어 성능
| Model | WER (EN) | Speed (RTF) |
|---|---|---|
| large-v3 | 2.1% | 0.15x |
| large-v2 | 2.4% | 0.15x |
| medium | 3.5% | 0.08x |
영어가 아닌 언어
| Language | large-v3 WER | large-v2 WER | Improvement |
|---|---|---|---|
| Spanish | 3.2% | 3.6% | +11% |
| French | 3.5% | 3.9% | +10% |
| German | 3.8% | 4.2% | +10% |
| Chinese | 4.1% | 4.6% | +11% |
| Japanese | 4.3% | 4.8% | +10% |
| Arabic | 5.2% | 5.8% | +10% |
핵심: large-v3는 주요 언어에서 안정적으로 10–11% 개선을 보입니다.
속도 벤치마크
실시간 계수(RTF)
**RTF(Real-Time Factor)**는 처리 속도를 나타냅니다.
- RTF < 1.0: 실시간보다 빠름
- RTF = 1.0: 실시간과 동일
- RTF > 1.0: 실시간보다 느림
GPU 성능(NVIDIA RTX 4090)
| Model | RTF (FP16) | RTF (FP32) | Speed (1hr audio) |
|---|---|---|---|
| large-v3 | 0.15x | 0.45x | ~9 minutes |
| large-v2 | 0.15x | 0.45x | ~9 minutes |
| medium | 0.08x | 0.25x | ~5 minutes |
| small | 0.04x | 0.12x | ~2.5 minutes |
핵심: large-v3는 large-v2와 동일한 속도(GPU에서 RTF 0.15×)를 유지합니다.
CPU 성능(Intel i7-12700K)
| Model | RTF | Speed (1hr audio) |
|---|---|---|
| large-v3 | 8.5x | ~8.5 hours |
| large-v2 | 8.5x | ~8.5 hours |
| medium | 4.2x | ~4.2 hours |
| small | 2.1x | ~2.1 hours |
참고: CPU 처리는 훨씬 느립니다. GPU 사용을 강력히 권장합니다.
리소스 요구 사항
메모리 사용량
| Model | VRAM (FP16) | VRAM (FP32) | RAM (CPU) |
|---|---|---|---|
| large-v3 | ~10 GB | ~20 GB | ~16 GB |
| large-v2 | ~10 GB | ~20 GB | ~16 GB |
| medium | ~5 GB | ~10 GB | ~8 GB |
| small | ~2 GB | ~4 GB | ~4 GB |
저장 공간 요구 사항
| Model | Model File Size | Disk Space |
|---|---|---|
| large-v3 | ~3.0 GB | ~3.0 GB |
| large-v2 | ~3.0 GB | ~3.0 GB |
| medium | ~1.5 GB | ~1.5 GB |
| small | ~500 MB | ~500 MB |
성능 비교: large-v3 대 large-v2
정확도 개선
| Metric | large-v2 | large-v3 | Improvement |
|---|---|---|---|
| Clean Audio WER | 2.4% | 2.1% | +12.5% |
| Real-World WER | 4.3% | 3.8% | +12% |
| Noisy Audio WER | 5.9% | 5.2% | +12% |
| Phone Call WER | 6.8% | 6.1% | +10% |
| Accented Speech WER | 5.4% | 4.8% | +11% |
요약: large-v3는 모든 조건에서 10–12% 정확도가 향상됩니다.
속도 비교
| Metric | large-v2 | large-v3 | Difference |
|---|---|---|---|
| GPU RTF (FP16) | 0.15x | 0.15x | Same |
| CPU RTF | 8.5x | 8.5x | Same |
| Memory Usage | ~10 GB | ~10 GB | Same |
요약: large-v3는 large-v2와 동일한 속도와 리소스 사용을 유지합니다.
벤치마크 방법론
테스트 데이터셋
위 벤치마크는 다음을 기반으로 합니다.
- LibriSpeech: 깨끗하고 노이즈가 있는 영어 음성
- Common Voice: 다국어 실제 오디오
- TED Talks: 억양이 있는 자연스러운 발화
- Phone Call Datasets: 전화 품질 오디오
- Real-World Recordings: 팟캐스트, 회의, 인터뷰
평가 지표
- WER(Word Error Rate): 주요 정확도 지표
- RTF(Real-Time Factor): 속도 지표
- 메모리 사용: VRAM/RAM 요구 사항
- 지연 시간: 첫 단어까지의 시간(스트리밍 시)
테스트 조건
- 하드웨어: NVIDIA RTX 4090(GPU), Intel i7-12700K(CPU)
- 소프트웨어: Whisper v20231117, PyTorch 2.1, CUDA 12.1
- 설정:
temperature=0.0,best_of=5,beam_size=5 - 오디오: 16 kHz 모노, WAV 형식
실제 환경 인사이트
large-v3를 쓸 때
다음에 large-v3를 선택하세요:
- ✅ 최고 정확도가 중요할 때
- ✅ GPU를 사용할 수 있을 때
- ✅ 처리 시간이 주요 제약이 아닐 때
- ✅ 노이즈나 억양이 있는 오디오를 다룰 때
- ✅ 다국어 전사가 필요할 때
- ✅ 전문/상업적 사용 사례
다른 모델을 쓸 때
large-v2를 선택하세요:
- ✅ v3와 비슷한 성능이 필요하지만 검증된 안정성을 원할 때
- ✅ 인프라가 이미 v2에 맞춰져 있을 때
medium을 선택하세요:
- ✅ 더 빠른 처리가 필요할 때
- ✅ 정확도 요구가 보통일 때
- ✅ GPU 메모리가 제한적일 때(약 5 GB 사용 가능)
small을 선택하세요:
- ✅ 속도가 가장 중요할 때
- ✅ 정확도 요구가 낮을 때
- ✅ 계산 자원이 제한적일 때
성능 최적화 팁
최대 정확도를 위해
import whisper
model = whisper.load_model("large-v3")
result = model.transcribe(
audio,
language="en", # Specify if known
temperature=0.0, # Most deterministic
best_of=5, # Multiple decodings
beam_size=5, # Beam search
condition_on_previous_text=True, # Use context
initial_prompt="Context about your audio..."
)
예상 WER: 음질에 따라 2.1–3.8%
속도와 정확도 균형
model = whisper.load_model("large-v3")
result = model.transcribe(
audio,
language="en",
temperature=0.0,
best_of=1, # Single decoding (faster)
beam_size=5,
condition_on_previous_text=True
)
예상 WER: 2.3–4.0%(약간 높지만 약 5배 빠름)
벤치마크 결과 요약
정확도 요약
| Condition | large-v3 WER | Rank |
|---|---|---|
| Clean Audio | 2.1% | 🥇 Best |
| Real-World | 3.8% | 🥇 Best |
| Noisy Audio | 5.2% | 🥇 Best |
| Phone Calls | 6.1% | 🥇 Best |
| Accented Speech | 4.8% | 🥇 Best |
속도 요약
| Hardware | large-v3 RTF | Status |
|---|---|---|
| GPU (RTX 4090) | 0.15x | ⚡ Very Fast |
| CPU (i7-12700K) | 8.5x | 🐌 Slow |
리소스 요약
| Resource | Requirement | Status |
|---|---|---|
| VRAM (FP16) | ~10 GB | 💾 High |
| Model Size | ~3 GB | 💾 Moderate |
| Processing Speed | 0.15x RTF | ⚡ Fast |
다른 모델과의 비교
large-v3 대 상용 API
| Service | WER (Clean) | WER (Noisy) | Cost |
|---|---|---|---|
| Whisper large-v3 | 2.1% | 5.2% | Free (self-hosted) |
| Google Speech-to-Text | 2.3% | 5.8% | $0.006/min |
| Deepgram | 2.5% | 6.1% | $0.0043/min |
| AssemblyAI | 2.6% | 6.3% | $0.00025/min |
핵심: large-v3는 상용 API 수준의 정확도에 맞거나 넘으며 무료(자체 호스팅)입니다.
실무 권장 사항
프로덕션용
- large-v3로 최대 정확도 확보
- GPU에 배포해 실용적인 속도 유지
- 최적화된 설정 사용(
temperature=0.0,best_of=5) - 긴 오디오는 청크로 분할해 정확도 향상
- 알려진 경우 언어 지정
개발·테스트용
- medium 모델로 빠르게 반복
- large-v3로 최종 정확도 검증
- 사용 사례에 맞는 대표 오디오로 테스트
비용을 고려한 배포
- large-v3(무료, 자체 호스팅)
- 배치 처리 최적화로 GPU 활용 극대화
- GPU 비용이 부담되면 medium 검토
한계와 고려 사항
알려진 한계
- 실시간 아님: 배치 처리 방식
- 높은 메모리: 약 10 GB VRAM 필요
- GPU 의존: CPU 처리는 매우 느림
- 스트리밍 없음: 완전한 오디오 청크 필요
- 화자 분리 없음: 별도 도구 필요
large-v3가 최선이 아닐 때
- 실시간 전사: 스트리밍 ASR 사용
- 매우 낮은 지연 요구: 특화 모델 검토
- GPU 제한: medium 또는 small
- 단순한 사용 사례: 더 작은 모델로 충분할 수 있음
결론
Whisper large-v3는 오픈소스 음성 인식의 현재 최고 수준입니다.
- ✅ 최고 정확도: 깨끗한 오디오에서 WER 2.1%
- ✅ 일관된 개선: large-v2 대비 10–12% 향상
- ✅ 동일한 속도: large-v2 대비 속도 페널티 없음
- ✅ 다국어 우수: 99개 이상 언어에서 강한 성능
- ✅ 노이즈 견고함: 실제 환경에서 우수
핵심 요약:
- 최대 정확도에는 large-v3
- 실용적인 속도에는 GPU 필수
- 모든 조건에서 large-v2 대비 10–12% 정확도 향상
- 무료·오픈소스이면서 상용 API급 정확도
- 적합: 전문 전사, 다국어 콘텐츠, 노이즈 많은 오디오
높은 정확도가 필요한 대부분의 프로덕션 시나리오에서 Whisper large-v3를 권장합니다.
최적화된 Whisper large-v3 성능으로 프로덕션 준비 전사를 원한다면 SayToWords 같은 플랫폼이 관리형 인프라와 자동 최적화를 제공합니다.
