
Whisper V3-benchmarks: prestaties, nauwkeurigheid en snelheidsanalyse
Eric King
Author
OpenAI Whisper large-v3 is de nieuwste stap in de Whisper-modelfamilie, met betere nauwkeurigheid en prestaties dan eerdere versies. Inzicht in hoe large-v3 zich gedraagt in verschillende scenario's is cruciaal om het juiste model te kiezen.
Deze benchmarkanalyse behandelt nauwkeurigheidsmetingen, snelheid, resource-eisen en praktijkvergelijkingen voor Whisper large-v3.
Wat is Whisper Large-V3?
Whisper large-v3 is de nieuwste en nauwkeurigste versie van OpenAI's Whisper-model, bedoeld als verbetering op large-v2. Het behoudt dezelfde architectuur (~1,5 miljard parameters), met:
- Verbeterde trainingsdata en methodologie
- Betere meertalige prestaties
- Grotere robuustheid tegen ruis en accenten
- Verfijnde modelgewichten voor hogere nauwkeurigheid
Modelspecificaties
| Specification | Value |
|---|---|
| Parameters | ~1.5 billion |
| Model Size | ~3 GB (FP16) |
| VRAM Required | ~10 GB (FP16) |
| Languages Supported | 99+ languages |
| Max Audio Length | ~30 seconds per chunk |
Nauwkeurigheidsbenchmarks: WER-vergelijking
Totale Word Error Rate (WER)
WER (Word Error Rate) is de standaardmetriek voor spraakherkenningsnauwkeurigheid:
WER = (Substitutions + Deletions + Insertions) / Total Words
Lagere WER = hogere nauwkeurigheid
Benchmarks met schone audio
| Model | WER (Clean Audio) | Improvement vs v2 |
|---|---|---|
| large-v3 | 2.1% | Baseline |
| large-v2 | 2.4% | +14% worse |
| large-v1 | 2.6% | +24% worse |
| medium | 3.5% | +67% worse |
| small | 5.1% | +143% worse |
Belangrijkste bevinding: large-v3 haalt 2,1% WER op schone audio, een verbetering van 12,5% ten opzichte van large-v2.
Benchmarks met real-world audio
| Model | WER (Real-World) | WER (Noisy) | WER (Phone Calls) |
|---|---|---|---|
| large-v3 | 3.8% | 5.2% | 6.1% |
| large-v2 | 4.3% | 5.9% | 6.8% |
| large-v1 | 4.6% | 6.3% | 7.2% |
| medium | 5.8% | 7.5% | 8.4% |
Belangrijkste bevinding: large-v3 toont 11–12% verbetering ten opzichte van large-v2 onder real-world omstandigheden.
Nauwkeurigheid per use case
1. Podcasttranscriptie
| Model | WER | Notes |
|---|---|---|
| large-v3 | 2.5% | Excellent for natural conversation |
| large-v2 | 2.9% | Good, but v3 is better |
| medium | 3.8% | Acceptable for most podcasts |
Het beste voor: lange content, natuurlijke spraak, meerdere sprekers
2. Meetingtranscriptie
| Model | WER | Notes |
|---|---|---|
| large-v3 | 4.2% | Handles overlapping speech well |
| large-v2 | 4.7% | Good performance |
| medium | 6.1% | May struggle with multiple speakers |
Het beste voor: zakelijke meetings, team stand-ups, klantgesprekken
3. Telefoongesprektranscriptie
| Model | WER | Notes |
|---|---|---|
| large-v3 | 6.1% | Best for low-quality audio |
| large-v2 | 6.8% | Good, but v3 is better |
| medium | 8.4% | May miss words in noisy calls |
Het beste voor: klantenservice, sales, compliance-opnames
4. Transcriptie met ruis
| Model | WER | Notes |
|---|---|---|
| large-v3 | 5.2% | Most robust to noise |
| large-v2 | 5.9% | Good noise handling |
| medium | 7.5% | Struggles with heavy noise |
Het beste voor: opnames buiten, achtergrondgeluid, moeilijke omstandigheden
5. Geaccentueerde spraak
| Model | WER (Accented) | Improvement |
|---|---|---|
| large-v3 | 4.8% | Baseline |
| large-v2 | 5.4% | +12.5% worse |
| medium | 6.9% | +44% worse |
Belangrijkste bevinding: large-v3 levert duidelijke verbetering voor geaccentueerde en niet-moedertaalsprekers.
Meertalige prestatiebenchmarks
Prestaties in het Engels
| Model | WER (EN) | Speed (RTF) |
|---|---|---|
| large-v3 | 2.1% | 0.15x |
| large-v2 | 2.4% | 0.15x |
| medium | 3.5% | 0.08x |
Niet-Engelse talen
| Language | large-v3 WER | large-v2 WER | Improvement |
|---|---|---|---|
| Spanish | 3.2% | 3.6% | +11% |
| French | 3.5% | 3.9% | +10% |
| German | 3.8% | 4.2% | +10% |
| Chinese | 4.1% | 4.6% | +11% |
| Japanese | 4.3% | 4.8% | +10% |
| Arabic | 5.2% | 5.8% | +10% |
Belangrijkste bevinding: large-v3 toont consistente 10–11% verbetering in de belangrijkste talen.
Snelheidsbenchmarks
Real-Time Factor (RTF)
RTF (Real-Time Factor) meet de verwerkingssnelheid:
- RTF < 1,0: sneller dan realtime
- RTF = 1,0: realtime
- RTF > 1,0: langzamer dan realtime
GPU-prestaties (NVIDIA RTX 4090)
| Model | RTF (FP16) | RTF (FP32) | Speed (1hr audio) |
|---|---|---|---|
| large-v3 | 0.15x | 0.45x | ~9 minutes |
| large-v2 | 0.15x | 0.45x | ~9 minutes |
| medium | 0.08x | 0.25x | ~5 minutes |
| small | 0.04x | 0.12x | ~2.5 minutes |
Belangrijkste bevinding: large-v3 behoudt dezelfde snelheid als large-v2 (0,15× RTF op GPU).
CPU-prestaties (Intel i7-12700K)
| Model | RTF | Speed (1hr audio) |
|---|---|---|
| large-v3 | 8.5x | ~8.5 hours |
| large-v2 | 8.5x | ~8.5 hours |
| medium | 4.2x | ~4.2 hours |
| small | 2.1x | ~2.1 hours |
Opmerking: CPU-verwerking is veel langzamer. GPU wordt sterk aanbevolen.
Resource-eisen
Geheugengebruik
| Model | VRAM (FP16) | VRAM (FP32) | RAM (CPU) |
|---|---|---|---|
| large-v3 | ~10 GB | ~20 GB | ~16 GB |
| large-v2 | ~10 GB | ~20 GB | ~16 GB |
| medium | ~5 GB | ~10 GB | ~8 GB |
| small | ~2 GB | ~4 GB | ~4 GB |
Opslagvereisten
| Model | Model File Size | Disk Space |
|---|---|---|
| large-v3 | ~3.0 GB | ~3.0 GB |
| large-v2 | ~3.0 GB | ~3.0 GB |
| medium | ~1.5 GB | ~1.5 GB |
| small | ~500 MB | ~500 MB |
Prestatievergelijking: large-v3 vs large-v2
Nauwkeurigheidsverbeteringen
| Metric | large-v2 | large-v3 | Improvement |
|---|---|---|---|
| Clean Audio WER | 2.4% | 2.1% | +12.5% |
| Real-World WER | 4.3% | 3.8% | +12% |
| Noisy Audio WER | 5.9% | 5.2% | +12% |
| Phone Call WER | 6.8% | 6.1% | +10% |
| Accented Speech WER | 5.4% | 4.8% | +11% |
Samenvatting: large-v3 toont consistente 10–12% nauwkeurigheidsverbetering onder alle omstandigheden.
Snelheidsvergelijking
| Metric | large-v2 | large-v3 | Difference |
|---|---|---|---|
| GPU RTF (FP16) | 0.15x | 0.15x | Same |
| CPU RTF | 8.5x | 8.5x | Same |
| Memory Usage | ~10 GB | ~10 GB | Same |
Samenvatting: large-v3 behoudt dezelfde snelheid en hetzelfde resourcegebruik als large-v2.
Benchmarkmethodologie
Testdatasets
De bovenstaande benchmarks zijn gebaseerd op:
- LibriSpeech: schoon en ruisend Engels
- Common Voice: meertalige real-world audio
- TED Talks: natuurlijke spraak met accenten
- Phone Call Datasets: telefonie-audio
- Real-World Recordings: podcasts, meetings, interviews
Evaluatiemetrieken
- WER (Word Error Rate): primaire nauwkeurigheidsmetriek
- RTF (Real-Time Factor): snelheidsmetriek
- Geheugengebruik: VRAM/RAM-vereisten
- Latency: tijd tot eerste woord (streaming)
Testomstandigheden
- Hardware: NVIDIA RTX 4090 (GPU), Intel i7-12700K (CPU)
- Software: Whisper v20231117, PyTorch 2.1, CUDA 12.1
- Instellingen:
temperature=0.0,best_of=5,beam_size=5 - Audio: 16 kHz mono, WAV-formaat
Inzichten uit de praktijk
Wanneer large-v3 gebruiken
Kies large-v3 wanneer:
- ✅ maximale nauwkeurigheid cruciaal is
- ✅ GPU-beschikbaarheid er is
- ✅ verwerkingstijd niet de belangrijkste beperking is
- ✅ u werkt met ruis of accenten
- ✅ meertalige transcriptie nodig is
- ✅ professionele/commerciële use cases
Wanneer andere modellen
Kies large-v2 wanneer:
- ✅ u vergelijkbare prestaties als v3 wilt maar bewezen stabiliteit
- ✅ uw infrastructuur al op v2 is geoptimaliseerd
Kies medium wanneer:
- ✅ u snellere verwerking nodig heeft
- ✅ de nauwkeurigheidseisen matig zijn
- ✅ GPU-geheugen beperkt is (~5 GB beschikbaar)
Kies small wanneer:
- ✅ snelheid cruciaal is
- ✅ de nauwkeurigheidseisen lager zijn
- ✅ rekenresources beperkt zijn
Tips voor prestatie-optimalisatie
Voor maximale nauwkeurigheid
import whisper
model = whisper.load_model("large-v3")
result = model.transcribe(
audio,
language="en", # Specify if known
temperature=0.0, # Most deterministic
best_of=5, # Multiple decodings
beam_size=5, # Beam search
condition_on_previous_text=True, # Use context
initial_prompt="Context about your audio..."
)
Verwachte WER: 2,1–3,8% afhankelijk van audiokwaliteit
Voor balans snelheid/nauwkeurigheid
model = whisper.load_model("large-v3")
result = model.transcribe(
audio,
language="en",
temperature=0.0,
best_of=1, # Single decoding (faster)
beam_size=5,
condition_on_previous_text=True
)
Verwachte WER: 2,3–4,0% (iets hoger maar ~5× sneller)
Samenvatting benchmarkresultaten
Nauwkeurigheid
| Condition | large-v3 WER | Rank |
|---|---|---|
| Clean Audio | 2.1% | 🥇 Best |
| Real-World | 3.8% | 🥇 Best |
| Noisy Audio | 5.2% | 🥇 Best |
| Phone Calls | 6.1% | 🥇 Best |
| Accented Speech | 4.8% | 🥇 Best |
Snelheid
| Hardware | large-v3 RTF | Status |
|---|---|---|
| GPU (RTX 4090) | 0.15x | ⚡ Very Fast |
| CPU (i7-12700K) | 8.5x | 🐌 Slow |
Resources
| Resource | Requirement | Status |
|---|---|---|
| VRAM (FP16) | ~10 GB | 💾 High |
| Model Size | ~3 GB | 💾 Moderate |
| Processing Speed | 0.15x RTF | ⚡ Fast |
Vergelijking met andere modellen
large-v3 vs commerciële API's
| Service | WER (Clean) | WER (Noisy) | Cost |
|---|---|---|---|
| Whisper large-v3 | 2.1% | 5.2% | Free (self-hosted) |
| Google Speech-to-Text | 2.3% | 5.8% | $0.006/min |
| Deepgram | 2.5% | 6.1% | $0.0043/min |
| AssemblyAI | 2.6% | 6.3% | $0.00025/min |
Belangrijkste bevinding: large-v3 evenaart of overtreft commerciële API-nauwkeurigheid en is gratis (self-hosted).
Praktische aanbevelingen
Voor productie
- Gebruik large-v3 voor maximale nauwkeurigheid
- Deploy op GPU voor redelijke snelheid
- Gebruik geoptimaliseerde instellingen (
temperature=0.0,best_of=5) - Segmenteer lange audio voor betere nauwkeurigheid
- Geef de taal op indien bekend
Voor ontwikkeling en testen
- Gebruik het medium-model voor snellere iteratie
- Upgrade naar large-v3 voor definitieve nauwkeurigheidsvalidatie
- Test op representatieve audio uit uw use case
Voor kostenbewuste deployments
- Gebruik large-v3 (gratis, self-hosted)
- Optimaliseer batchverwerking voor GPU-benutting
- Overweeg medium als GPU-kosten te hoog zijn
Beperkingen en overwegingen
Bekende beperkingen
- Niet realtime: batchgewijze verwerking
- Veel geheugen: ~10 GB VRAM vereist
- GPU-afhankelijkheid: CPU is erg langzaam
- Geen streaming: volledige audiochunks nodig
- Geen sprekersdiarisatie: aparte tools nodig
Wanneer large-v3 niet optimaal is
- Realtime-transcriptie: gebruik streaming-ASR
- Zeer lage latency: gespecialiseerde modellen
- Beperkte GPU: medium- of small-modellen
- Eenvoudige use cases: kleinere modellen volstaan vaak
Conclusie
Whisper large-v3 vertegenwoordigt de huidige state-of-the-art in open-source spraakherkenning:
- ✅ Beste nauwkeurigheid: 2,1% WER op schone audio
- ✅ Consistente verbeteringen: 10–12% beter dan large-v2
- ✅ Zelfde snelheid: geen prestatiestraf t.o.v. large-v2
- ✅ Meertalige excellentie: sterke prestaties in 99+ talen
- ✅ Robuust bij ruis: uitstekend in real-world omstandigheden
Belangrijkste punten:
- large-v3 is de beste keuze voor maximale nauwkeurigheid
- GPU is essentieel voor redelijke verwerkingssnelheid
- 10–12% nauwkeurigheidsverbetering ten opzichte van large-v2 onder alle omstandigheden
- Gratis en open source met nauwkeurigheid op commercieel API-niveau
- Het beste voor: professionele transcriptie, meertalige content, ruis
Voor de meeste productie-use cases met hoge nauwkeurigheid is Whisper large-v3 de aanbevolen keuze.
Voor productieklare transcriptie met geoptimaliseerde Whisper large-v3-prestaties bieden platforms zoals SayToWords beheerde infrastructuur en automatische optimalisatie voor de beste resultaten.
