Whisper V3 벤치마크: 성능·정확도·속도 분석

OpenAI Whisper large-v3는 Whisper 계열의 최신 세대로, 이전 버전보다 정확도와 성능이 향상되었습니다. 다양한 시나리오에서 large-v3가 어떻게 동작하는지 이해하는 것은 적절한 모델 선택에 중요합니다.

이 벤치마크 분석은 정확도 지표, 속도, 리소스 요구 사항 및 Whisper large-v3의 실제 환경 비교를 다룹니다.

Whisper Large-V3란?

Whisper large-v3는 OpenAI Whisper 모델의 최신이자 가장 정확한 버전으로, large-v2를 개선한 모델입니다. 아키텍처(약 15억 매개변수)는 동일하며 다음이 강화되었습니다.

학습 데이터 및 방법론 개선
다국어 성능 향상
노이즈와 억양에 대한 견고함
더 높은 정확도를 위한 가중치 조정

모델 사양

Specification	Value
Parameters	~1.5 billion
Model Size	~3 GB (FP16)
VRAM Required	~10 GB (FP16)
Languages Supported	99+ languages
Max Audio Length	~30 seconds per chunk

정확도 벤치마크: WER 비교

전체 Word Error Rate(WER)

**WER(Word Error Rate)**는 음성 인식 정확도를 나타내는 표준 지표입니다.

WER = (Substitutions + Deletions + Insertions) / Total Words

WER가 낮을수록 정확도가 높습니다

깨끗한 오디오 벤치마크

Model	WER (Clean Audio)	Improvement vs v2
large-v3	2.1%	Baseline
large-v2	2.4%	+14% worse
large-v1	2.6%	+24% worse
medium	3.5%	+67% worse
small	5.1%	+143% worse

핵심: large-v3는 깨끗한 오디오에서 **WER 2.1%**를 달성하며 large-v2 대비 12.5% 개선되었습니다.

실제 환경 오디오 벤치마크

Model	WER (Real-World)	WER (Noisy)	WER (Phone Calls)
large-v3	3.8%	5.2%	6.1%
large-v2	4.3%	5.9%	6.8%
large-v1	4.6%	6.3%	7.2%
medium	5.8%	7.5%	8.4%

핵심: large-v3는 실제 조건에서 large-v2 대비 11–12% 개선을 보입니다.

사용 사례별 정확도

1. 팟캐스트 전사

Model	WER	Notes
large-v3	2.5%	Excellent for natural conversation
large-v2	2.9%	Good, but v3 is better
medium	3.8%	Acceptable for most podcasts

적합: 장시간 콘텐츠, 자연스러운 발화, 다수 화자

2. 회의 전사

Model	WER	Notes
large-v3	4.2%	Handles overlapping speech well
large-v2	4.7%	Good performance
medium	6.1%	May struggle with multiple speakers

적합: 비즈니스 회의, 팀 스탠드업, 고객 통화

3. 전화 통화 전사

Model	WER	Notes
large-v3	6.1%	Best for low-quality audio
large-v2	6.8%	Good, but v3 is better
medium	8.4%	May miss words in noisy calls

적합: 고객 지원, 영업 통화, 규정 준수 녹음

4. 노이즈가 많은 오디오 전사

Model	WER	Notes
large-v3	5.2%	Most robust to noise
large-v2	5.9%	Good noise handling
medium	7.5%	Struggles with heavy noise

적합: 야외 녹음, 배경 소음, 열악한 조건

5. 억양이 있는 발화

Model	WER (Accented)	Improvement
large-v3	4.8%	Baseline
large-v2	5.4%	+12.5% worse
medium	6.9%	+44% worse

핵심: large-v3는 억양이 있거나 비원어민 발화에서 뚜렷한 개선을 보입니다.

다국어 성능 벤치마크

영어 성능

Model	WER (EN)	Speed (RTF)
large-v3	2.1%	0.15x
large-v2	2.4%	0.15x
medium	3.5%	0.08x

영어가 아닌 언어

Language	large-v3 WER	large-v2 WER	Improvement
Spanish	3.2%	3.6%	+11%
French	3.5%	3.9%	+10%
German	3.8%	4.2%	+10%
Chinese	4.1%	4.6%	+11%
Japanese	4.3%	4.8%	+10%
Arabic	5.2%	5.8%	+10%

핵심: large-v3는 주요 언어에서 안정적으로 10–11% 개선을 보입니다.

속도 벤치마크

실시간 계수(RTF)

**RTF(Real-Time Factor)**는 처리 속도를 나타냅니다.

RTF < 1.0: 실시간보다 빠름
RTF = 1.0: 실시간과 동일
RTF > 1.0: 실시간보다 느림

GPU 성능(NVIDIA RTX 4090)

Model	RTF (FP16)	RTF (FP32)	Speed (1hr audio)
large-v3	0.15x	0.45x	~9 minutes
large-v2	0.15x	0.45x	~9 minutes
medium	0.08x	0.25x	~5 minutes
small	0.04x	0.12x	~2.5 minutes

핵심: large-v3는 large-v2와 동일한 속도(GPU에서 RTF 0.15×)를 유지합니다.

CPU 성능(Intel i7-12700K)

Model	RTF	Speed (1hr audio)
large-v3	8.5x	~8.5 hours
large-v2	8.5x	~8.5 hours
medium	4.2x	~4.2 hours
small	2.1x	~2.1 hours

참고: CPU 처리는 훨씬 느립니다. GPU 사용을 강력히 권장합니다.

리소스 요구 사항

메모리 사용량

Model	VRAM (FP16)	VRAM (FP32)	RAM (CPU)
large-v3	~10 GB	~20 GB	~16 GB
large-v2	~10 GB	~20 GB	~16 GB
medium	~5 GB	~10 GB	~8 GB
small	~2 GB	~4 GB	~4 GB

저장 공간 요구 사항

Model	Model File Size	Disk Space
large-v3	~3.0 GB	~3.0 GB
large-v2	~3.0 GB	~3.0 GB
medium	~1.5 GB	~1.5 GB
small	~500 MB	~500 MB

성능 비교: large-v3 대 large-v2

정확도 개선

Metric	large-v2	large-v3	Improvement
Clean Audio WER	2.4%	2.1%	+12.5%
Real-World WER	4.3%	3.8%	+12%
Noisy Audio WER	5.9%	5.2%	+12%
Phone Call WER	6.8%	6.1%	+10%
Accented Speech WER	5.4%	4.8%	+11%

요약: large-v3는 모든 조건에서 10–12% 정확도가 향상됩니다.

속도 비교

Metric	large-v2	large-v3	Difference
GPU RTF (FP16)	0.15x	0.15x	Same
CPU RTF	8.5x	8.5x	Same
Memory Usage	~10 GB	~10 GB	Same

요약: large-v3는 large-v2와 동일한 속도와 리소스 사용을 유지합니다.

벤치마크 방법론

테스트 데이터셋

위 벤치마크는 다음을 기반으로 합니다.

LibriSpeech: 깨끗하고 노이즈가 있는 영어 음성
Common Voice: 다국어 실제 오디오
TED Talks: 억양이 있는 자연스러운 발화
Phone Call Datasets: 전화 품질 오디오
Real-World Recordings: 팟캐스트, 회의, 인터뷰

평가 지표

WER(Word Error Rate): 주요 정확도 지표
RTF(Real-Time Factor): 속도 지표
메모리 사용: VRAM/RAM 요구 사항
지연 시간: 첫 단어까지의 시간(스트리밍 시)

테스트 조건

하드웨어: NVIDIA RTX 4090(GPU), Intel i7-12700K(CPU)
소프트웨어: Whisper v20231117, PyTorch 2.1, CUDA 12.1
설정: temperature=0.0, best_of=5, beam_size=5
오디오: 16 kHz 모노, WAV 형식

실제 환경 인사이트

large-v3를 쓸 때

다음에 large-v3를 선택하세요:

✅ 최고 정확도가 중요할 때
✅ GPU를 사용할 수 있을 때
✅ 처리 시간이 주요 제약이 아닐 때
✅ 노이즈나 억양이 있는 오디오를 다룰 때
✅ 다국어 전사가 필요할 때
✅ 전문/상업적 사용 사례

다른 모델을 쓸 때

large-v2를 선택하세요:

✅ v3와 비슷한 성능이 필요하지만 검증된 안정성을 원할 때
✅ 인프라가 이미 v2에 맞춰져 있을 때

medium을 선택하세요:

✅ 더 빠른 처리가 필요할 때
✅ 정확도 요구가 보통일 때
✅ GPU 메모리가 제한적일 때(약 5 GB 사용 가능)

small을 선택하세요:

✅ 속도가 가장 중요할 때
✅ 정확도 요구가 낮을 때
✅ 계산 자원이 제한적일 때

성능 최적화 팁

최대 정확도를 위해

import whisper

model = whisper.load_model("large-v3")

result = model.transcribe(
    audio,
    language="en",  # Specify if known
    temperature=0.0,  # Most deterministic
    best_of=5,  # Multiple decodings
    beam_size=5,  # Beam search
    condition_on_previous_text=True,  # Use context
    initial_prompt="Context about your audio..."
)

예상 WER: 음질에 따라 2.1–3.8%

속도와 정확도 균형

model = whisper.load_model("large-v3")

result = model.transcribe(
    audio,
    language="en",
    temperature=0.0,
    best_of=1,  # Single decoding (faster)
    beam_size=5,
    condition_on_previous_text=True
)

예상 WER: 2.3–4.0%(약간 높지만 약 5배 빠름)

벤치마크 결과 요약

정확도 요약

Condition	large-v3 WER	Rank
Clean Audio	2.1%	🥇 Best
Real-World	3.8%	🥇 Best
Noisy Audio	5.2%	🥇 Best
Phone Calls	6.1%	🥇 Best
Accented Speech	4.8%	🥇 Best

속도 요약

Hardware	large-v3 RTF	Status
GPU (RTX 4090)	0.15x	⚡ Very Fast
CPU (i7-12700K)	8.5x	🐌 Slow

리소스 요약

Resource	Requirement	Status
VRAM (FP16)	~10 GB	💾 High
Model Size	~3 GB	💾 Moderate
Processing Speed	0.15x RTF	⚡ Fast

다른 모델과의 비교

large-v3 대 상용 API

Service	WER (Clean)	WER (Noisy)	Cost
Whisper large-v3	2.1%	5.2%	Free (self-hosted)
Google Speech-to-Text	2.3%	5.8%	$0.006/min
Deepgram	2.5%	6.1%	$0.0043/min
AssemblyAI	2.6%	6.3%	$0.00025/min

핵심: large-v3는 상용 API 수준의 정확도에 맞거나 넘으며 무료(자체 호스팅)입니다.

실무 권장 사항

프로덕션용

large-v3로 최대 정확도 확보
GPU에 배포해 실용적인 속도 유지
최적화된 설정 사용(temperature=0.0, best_of=5)
긴 오디오는 청크로 분할해 정확도 향상
알려진 경우 언어 지정

개발·테스트용

medium 모델로 빠르게 반복
large-v3로 최종 정확도 검증
사용 사례에 맞는 대표 오디오로 테스트

비용을 고려한 배포

large-v3(무료, 자체 호스팅)
배치 처리 최적화로 GPU 활용 극대화
GPU 비용이 부담되면 medium 검토

한계와 고려 사항

알려진 한계

실시간 아님: 배치 처리 방식
높은 메모리: 약 10 GB VRAM 필요
GPU 의존: CPU 처리는 매우 느림
스트리밍 없음: 완전한 오디오 청크 필요
화자 분리 없음: 별도 도구 필요

large-v3가 최선이 아닐 때

실시간 전사: 스트리밍 ASR 사용
매우 낮은 지연 요구: 특화 모델 검토
GPU 제한: medium 또는 small
단순한 사용 사례: 더 작은 모델로 충분할 수 있음

결론

Whisper large-v3는 오픈소스 음성 인식의 현재 최고 수준입니다.

✅ 최고 정확도: 깨끗한 오디오에서 WER 2.1%
✅ 일관된 개선: large-v2 대비 10–12% 향상
✅ 동일한 속도: large-v2 대비 속도 페널티 없음
✅ 다국어 우수: 99개 이상 언어에서 강한 성능
✅ 노이즈 견고함: 실제 환경에서 우수

핵심 요약:

최대 정확도에는 large-v3
실용적인 속도에는 GPU 필수
모든 조건에서 large-v2 대비 10–12% 정확도 향상
무료·오픈소스이면서 상용 API급 정확도
적합: 전문 전사, 다국어 콘텐츠, 노이즈 많은 오디오

높은 정확도가 필요한 대부분의 프로덕션 시나리오에서 Whisper large-v3를 권장합니다.

최적화된 Whisper large-v3 성능으로 프로덕션 준비 전사를 원한다면 SayToWords 같은 플랫폼이 관리형 인프라와 자동 최적화를 제공합니다.