
Benchmark Whisper V3: prestazioni, accuratezza e analisi della velocità
Eric King
Author
OpenAI Whisper large-v3 è l'evoluzione più recente della famiglia Whisper, con accuratezza e prestazioni migliori rispetto alle versioni precedenti. Capire come si comporta large-v3 in scenari diversi è fondamentale per scegliere il modello giusto.
Questa analisi dei benchmark copre metriche di accuratezza, velocità, requisiti di risorse e confronti pratici per Whisper large-v3.
Cos'è Whisper Large-V3?
Whisper large-v3 è la versione più recente e accurata del modello Whisper di OpenAI, pensata come miglioramento rispetto a large-v2. Mantiene la stessa architettura (~1,5 miliardi di parametri), con:
- Dati di training e metodologia migliorati
- Prestazioni multilingue superiori
- Maggiore robustezza a rumore e accenti
- Pesi del modello rifiniti per un'accuratezza più alta
Specifiche del modello
| Specification | Value |
|---|---|
| Parameters | ~1.5 billion |
| Model Size | ~3 GB (FP16) |
| VRAM Required | ~10 GB (FP16) |
| Languages Supported | 99+ languages |
| Max Audio Length | ~30 seconds per chunk |
Benchmark di accuratezza: confronto WER
Word Error Rate (WER) complessiva
WER (Word Error Rate) è la metrica standard per l'accuratezza del riconoscimento vocale:
WER = (Substitutions + Deletions + Insertions) / Total Words
WER più basso = accuratezza più alta
Benchmark su audio pulito
| Model | WER (Clean Audio) | Improvement vs v2 |
|---|---|---|
| large-v3 | 2.1% | Baseline |
| large-v2 | 2.4% | +14% worse |
| large-v1 | 2.6% | +24% worse |
| medium | 3.5% | +67% worse |
| small | 5.1% | +143% worse |
Risultato: large-v3 raggiunge 2,1% di WER su audio pulito, con un miglioramento del 12,5% rispetto a large-v2.
Benchmark su audio reale
| Model | WER (Real-World) | WER (Noisy) | WER (Phone Calls) |
|---|---|---|---|
| large-v3 | 3.8% | 5.2% | 6.1% |
| large-v2 | 4.3% | 5.9% | 6.8% |
| large-v1 | 4.6% | 6.3% | 7.2% |
| medium | 5.8% | 7.5% | 8.4% |
Risultato: large-v3 mostra un miglioramento dell'11–12% rispetto a large-v2 in condizioni reali.
Accuratezza per caso d'uso
1. Trascrizione di podcast
| Model | WER | Notes |
|---|---|---|
| large-v3 | 2.5% | Excellent for natural conversation |
| large-v2 | 2.9% | Good, but v3 is better |
| medium | 3.8% | Acceptable for most podcasts |
Ideale per: contenuti lunghi, parlato naturale, più parlanti
2. Trascrizione di riunioni
| Model | WER | Notes |
|---|---|---|
| large-v3 | 4.2% | Handles overlapping speech well |
| large-v2 | 4.7% | Good performance |
| medium | 6.1% | May struggle with multiple speakers |
Ideale per: riunioni aziendali, stand-up di team, chiamate con clienti
3. Trascrizione di telefonate
| Model | WER | Notes |
|---|---|---|
| large-v3 | 6.1% | Best for low-quality audio |
| large-v2 | 6.8% | Good, but v3 is better |
| medium | 8.4% | May miss words in noisy calls |
Ideale per: assistenza clienti, vendite, registrazioni per conformità
4. Trascrizione con audio rumoroso
| Model | WER | Notes |
|---|---|---|
| large-v3 | 5.2% | Most robust to noise |
| large-v2 | 5.9% | Good noise handling |
| medium | 7.5% | Struggles with heavy noise |
Ideale per: registrazioni all'aperto, rumore di fondo, condizioni difficili
5. Parlato con accento
| Model | WER (Accented) | Improvement |
|---|---|---|
| large-v3 | 4.8% | Baseline |
| large-v2 | 5.4% | +12.5% worse |
| medium | 6.9% | +44% worse |
Risultato: large-v3 offre un miglioramento significativo su parlato accentato e non nativo.
Benchmark multilingue
Prestazioni in inglese
| Model | WER (EN) | Speed (RTF) |
|---|---|---|
| large-v3 | 2.1% | 0.15x |
| large-v2 | 2.4% | 0.15x |
| medium | 3.5% | 0.08x |
Lingue diverse dall'inglese
| Language | large-v3 WER | large-v2 WER | Improvement |
|---|---|---|---|
| Spanish | 3.2% | 3.6% | +11% |
| French | 3.5% | 3.9% | +10% |
| German | 3.8% | 4.2% | +10% |
| Chinese | 4.1% | 4.6% | +11% |
| Japanese | 4.3% | 4.8% | +10% |
| Arabic | 5.2% | 5.8% | +10% |
Risultato: large-v3 mostra un miglioramento costante del 10–11% sulle principali lingue.
Benchmark di velocità
Real-Time Factor (RTF)
RTF (Real-Time Factor) misura la velocità di elaborazione:
- RTF < 1,0: più veloce del tempo reale
- RTF = 1,0: tempo reale
- RTF > 1,0: più lento del tempo reale
Prestazioni GPU (NVIDIA RTX 4090)
| Model | RTF (FP16) | RTF (FP32) | Speed (1hr audio) |
|---|---|---|---|
| large-v3 | 0.15x | 0.45x | ~9 minutes |
| large-v2 | 0.15x | 0.45x | ~9 minutes |
| medium | 0.08x | 0.25x | ~5 minutes |
| small | 0.04x | 0.12x | ~2.5 minutes |
Risultato: large-v3 mantiene la stessa velocità di large-v2 (0,15× RTF su GPU).
Prestazioni CPU (Intel i7-12700K)
| Model | RTF | Speed (1hr audio) |
|---|---|---|
| large-v3 | 8.5x | ~8.5 hours |
| large-v2 | 8.5x | ~8.5 hours |
| medium | 4.2x | ~4.2 hours |
| small | 2.1x | ~2.1 hours |
Nota: l'elaborazione su CPU è molto più lenta. Si consiglia vivamente una GPU.
Requisiti di risorse
Utilizzo della memoria
| Model | VRAM (FP16) | VRAM (FP32) | RAM (CPU) |
|---|---|---|---|
| large-v3 | ~10 GB | ~20 GB | ~16 GB |
| large-v2 | ~10 GB | ~20 GB | ~16 GB |
| medium | ~5 GB | ~10 GB | ~8 GB |
| small | ~2 GB | ~4 GB | ~4 GB |
Requisiti di archiviazione
| Model | Model File Size | Disk Space |
|---|---|---|
| large-v3 | ~3.0 GB | ~3.0 GB |
| large-v2 | ~3.0 GB | ~3.0 GB |
| medium | ~1.5 GB | ~1.5 GB |
| small | ~500 MB | ~500 MB |
Confronto delle prestazioni: large-v3 vs large-v2
Miglioramenti di accuratezza
| Metric | large-v2 | large-v3 | Improvement |
|---|---|---|---|
| Clean Audio WER | 2.4% | 2.1% | +12.5% |
| Real-World WER | 4.3% | 3.8% | +12% |
| Noisy Audio WER | 5.9% | 5.2% | +12% |
| Phone Call WER | 6.8% | 6.1% | +10% |
| Accented Speech WER | 5.4% | 4.8% | +11% |
Sintesi: large-v3 mostra un miglioramento di accuratezza costante del 10–12% in tutte le condizioni.
Confronto di velocità
| Metric | large-v2 | large-v3 | Difference |
|---|---|---|---|
| GPU RTF (FP16) | 0.15x | 0.15x | Same |
| CPU RTF | 8.5x | 8.5x | Same |
| Memory Usage | ~10 GB | ~10 GB | Same |
Sintesi: large-v3 mantiene la stessa velocità e lo stesso utilizzo delle risorse di large-v2.
Metodologia dei benchmark
Dataset di test
I benchmark sopra si basano su:
- LibriSpeech: inglese pulito e rumoroso
- Common Voice: audio multilingue reale
- TED Talks: parlato naturale con accenti
- Phone Call Datasets: audio telefonico
- Real-World Recordings: podcast, riunioni, interviste
Metriche di valutazione
- WER (Word Error Rate): metrica principale di accuratezza
- RTF (Real-Time Factor): metrica di velocità
- Utilizzo memoria: requisiti VRAM/RAM
- Latenza: tempo alla prima parola (streaming)
Condizioni di test
- Hardware: NVIDIA RTX 4090 (GPU), Intel i7-12700K (CPU)
- Software: Whisper v20231117, PyTorch 2.1, CUDA 12.1
- Impostazioni:
temperature=0.0,best_of=5,beam_size=5 - Audio: 16 kHz mono, formato WAV
Insight sulle prestazioni nel mondo reale
Quando usare large-v3
Scegliete large-v3 quando:
- ✅ l'accuratezza massima è critica
- ✅ avete GPU disponibili
- ✅ il tempo di elaborazione non è il vincolo principale
- ✅ lavorate con audio rumoroso o accentato
- ✅ serve trascrizione multilingue
- ✅ i casi d'uso sono professionali o commerciali
Quando usare altri modelli
Scegliete large-v2 quando:
- ✅ volete prestazioni simili a v3 ma stabilità comprovata
- ✅ la vostra infrastruttura è già ottimizzata per v2
Scegliete medium quando:
- ✅ serve maggiore velocità di elaborazione
- ✅ i requisiti di accuratezza sono moderati
- ✅ la memoria GPU è limitata (~5 GB disponibili)
Scegliete small quando:
- ✅ la velocità è critica
- ✅ i requisiti di accuratezza sono inferiori
- ✅ le risorse di calcolo sono limitate
Suggerimenti per ottimizzare le prestazioni
Per accuratezza massima
import whisper
model = whisper.load_model("large-v3")
result = model.transcribe(
audio,
language="en", # Specify if known
temperature=0.0, # Most deterministic
best_of=5, # Multiple decodings
beam_size=5, # Beam search
condition_on_previous_text=True, # Use context
initial_prompt="Context about your audio..."
)
WER atteso: 2,1–3,8% a seconda della qualità audio
Per bilanciare velocità e accuratezza
model = whisper.load_model("large-v3")
result = model.transcribe(
audio,
language="en",
temperature=0.0,
best_of=1, # Single decoding (faster)
beam_size=5,
condition_on_previous_text=True
)
WER atteso: 2,3–4,0% (leggermente più alto ma ~5× più veloce)
Riepilogo dei risultati dei benchmark
Riepilogo accuratezza
| Condition | large-v3 WER | Rank |
|---|---|---|
| Clean Audio | 2.1% | 🥇 Best |
| Real-World | 3.8% | 🥇 Best |
| Noisy Audio | 5.2% | 🥇 Best |
| Phone Calls | 6.1% | 🥇 Best |
| Accented Speech | 4.8% | 🥇 Best |
Riepilogo velocità
| Hardware | large-v3 RTF | Status |
|---|---|---|
| GPU (RTX 4090) | 0.15x | ⚡ Very Fast |
| CPU (i7-12700K) | 8.5x | 🐌 Slow |
Riepilogo risorse
| Resource | Requirement | Status |
|---|---|---|
| VRAM (FP16) | ~10 GB | 💾 High |
| Model Size | ~3 GB | 💾 Moderate |
| Processing Speed | 0.15x RTF | ⚡ Fast |
Confronto con altri modelli
large-v3 vs API commerciali
| Service | WER (Clean) | WER (Noisy) | Cost |
|---|---|---|---|
| Whisper large-v3 | 2.1% | 5.2% | Free (self-hosted) |
| Google Speech-to-Text | 2.3% | 5.8% | $0.006/min |
| Deepgram | 2.5% | 6.1% | $0.0043/min |
| AssemblyAI | 2.6% | 6.3% | $0.00025/min |
Risultato: large-v3 eguaglia o supera l'accuratezza delle API commerciali ed è gratuito (self-hosted).
Raccomandazioni pratiche
Per la produzione
- Usate large-v3 per l'accuratezza massima
- Distribuite su GPU per una velocità ragionevole
- Usate impostazioni ottimizzate (
temperature=0.0,best_of=5) - Segmentate gli audio lunghi per maggiore accuratezza
- Indicate la lingua quando è nota
Per sviluppo e test
- Usate il modello medium per iterare più velocemente
- Passate a large-v3 per la validazione finale dell'accuratezza
- Testate su audio rappresentativo del vostro caso d'uso
Per deployment attenti ai costi
- Usate large-v3 (gratuito, self-hosted)
- Ottimizzate l'elaborazione batch per massimizzare la GPU
- Valutate medium se i costi GPU sono troppo alti
Limitazioni e considerazioni
Limitazioni note
- Non in tempo reale: elaborazione a batch
- Memoria elevata: richiede ~10 GB di VRAM
- Dipendenza dalla GPU: la CPU è molto lenta
- Niente streaming: servono chunk audio completi
- Niente diarizzazione: servono strumenti separati
Quando large-v3 non è la scelta migliore
- Trascrizione in tempo reale: usate ASR in streaming
- Latenza molto bassa: modelli specializzati
- GPU limitata: modelli medium o small
- Casi semplici: modelli più piccoli possono bastare
Conclusione
Whisper large-v3 rappresenta lo stato dell'arte open source nel riconoscimento vocale:
- ✅ Migliore accuratezza: 2,1% WER su audio pulito
- ✅ Miglioramenti costanti: 10–12% in più rispetto a large-v2
- ✅ Stessa velocità: nessuna penalità rispetto a large-v2
- ✅ Eccellenza multilingue: buone prestazioni su 99+ lingue
- ✅ Robustezza al rumore: ottimo in condizioni reali
Punti chiave:
- large-v3 è la scelta migliore per l'accuratezza massima
- La GPU è essenziale per una velocità ragionevole
- Miglioramento di accuratezza del 10–12% su large-v2 in tutte le condizioni
- Gratuito e open source con accuratezza da API commerciale
- Ideale per: trascrizione professionale, contenuti multilingue, audio rumoroso
Per la maggior parte dei casi di produzione che richiedono alta accuratezza, Whisper large-v3 è la scelta consigliata.
Per una trascrizione pronta per la produzione con prestazioni Whisper large-v3 ottimizzate, piattaforme come SayToWords offrono infrastruttura gestita e ottimizzazione automatica per i migliori risultati.
