Benchmark Whisper V3: prestazioni, accuratezza e analisi della velocità

Benchmark Whisper V3: prestazioni, accuratezza e analisi della velocità

Eric King

Eric King

Author


OpenAI Whisper large-v3 è l'evoluzione più recente della famiglia Whisper, con accuratezza e prestazioni migliori rispetto alle versioni precedenti. Capire come si comporta large-v3 in scenari diversi è fondamentale per scegliere il modello giusto.
Questa analisi dei benchmark copre metriche di accuratezza, velocità, requisiti di risorse e confronti pratici per Whisper large-v3.

Cos'è Whisper Large-V3?

Whisper large-v3 è la versione più recente e accurata del modello Whisper di OpenAI, pensata come miglioramento rispetto a large-v2. Mantiene la stessa architettura (~1,5 miliardi di parametri), con:
  • Dati di training e metodologia migliorati
  • Prestazioni multilingue superiori
  • Maggiore robustezza a rumore e accenti
  • Pesi del modello rifiniti per un'accuratezza più alta

Specifiche del modello

SpecificationValue
Parameters~1.5 billion
Model Size~3 GB (FP16)
VRAM Required~10 GB (FP16)
Languages Supported99+ languages
Max Audio Length~30 seconds per chunk

Benchmark di accuratezza: confronto WER

Word Error Rate (WER) complessiva

WER (Word Error Rate) è la metrica standard per l'accuratezza del riconoscimento vocale:
WER = (Substitutions + Deletions + Insertions) / Total Words
WER più basso = accuratezza più alta

Benchmark su audio pulito

ModelWER (Clean Audio)Improvement vs v2
large-v32.1%Baseline
large-v22.4%+14% worse
large-v12.6%+24% worse
medium3.5%+67% worse
small5.1%+143% worse
Risultato: large-v3 raggiunge 2,1% di WER su audio pulito, con un miglioramento del 12,5% rispetto a large-v2.

Benchmark su audio reale

ModelWER (Real-World)WER (Noisy)WER (Phone Calls)
large-v33.8%5.2%6.1%
large-v24.3%5.9%6.8%
large-v14.6%6.3%7.2%
medium5.8%7.5%8.4%
Risultato: large-v3 mostra un miglioramento dell'11–12% rispetto a large-v2 in condizioni reali.

Accuratezza per caso d'uso

1. Trascrizione di podcast

ModelWERNotes
large-v32.5%Excellent for natural conversation
large-v22.9%Good, but v3 is better
medium3.8%Acceptable for most podcasts
Ideale per: contenuti lunghi, parlato naturale, più parlanti

2. Trascrizione di riunioni

ModelWERNotes
large-v34.2%Handles overlapping speech well
large-v24.7%Good performance
medium6.1%May struggle with multiple speakers
Ideale per: riunioni aziendali, stand-up di team, chiamate con clienti

3. Trascrizione di telefonate

ModelWERNotes
large-v36.1%Best for low-quality audio
large-v26.8%Good, but v3 is better
medium8.4%May miss words in noisy calls
Ideale per: assistenza clienti, vendite, registrazioni per conformità

4. Trascrizione con audio rumoroso

ModelWERNotes
large-v35.2%Most robust to noise
large-v25.9%Good noise handling
medium7.5%Struggles with heavy noise
Ideale per: registrazioni all'aperto, rumore di fondo, condizioni difficili

5. Parlato con accento

ModelWER (Accented)Improvement
large-v34.8%Baseline
large-v25.4%+12.5% worse
medium6.9%+44% worse
Risultato: large-v3 offre un miglioramento significativo su parlato accentato e non nativo.

Benchmark multilingue

Prestazioni in inglese

ModelWER (EN)Speed (RTF)
large-v32.1%0.15x
large-v22.4%0.15x
medium3.5%0.08x

Lingue diverse dall'inglese

Languagelarge-v3 WERlarge-v2 WERImprovement
Spanish3.2%3.6%+11%
French3.5%3.9%+10%
German3.8%4.2%+10%
Chinese4.1%4.6%+11%
Japanese4.3%4.8%+10%
Arabic5.2%5.8%+10%
Risultato: large-v3 mostra un miglioramento costante del 10–11% sulle principali lingue.

Benchmark di velocità

Real-Time Factor (RTF)

RTF (Real-Time Factor) misura la velocità di elaborazione:
  • RTF < 1,0: più veloce del tempo reale
  • RTF = 1,0: tempo reale
  • RTF > 1,0: più lento del tempo reale

Prestazioni GPU (NVIDIA RTX 4090)

ModelRTF (FP16)RTF (FP32)Speed (1hr audio)
large-v30.15x0.45x~9 minutes
large-v20.15x0.45x~9 minutes
medium0.08x0.25x~5 minutes
small0.04x0.12x~2.5 minutes
Risultato: large-v3 mantiene la stessa velocità di large-v2 (0,15× RTF su GPU).

Prestazioni CPU (Intel i7-12700K)

ModelRTFSpeed (1hr audio)
large-v38.5x~8.5 hours
large-v28.5x~8.5 hours
medium4.2x~4.2 hours
small2.1x~2.1 hours
Nota: l'elaborazione su CPU è molto più lenta. Si consiglia vivamente una GPU.

Requisiti di risorse

Utilizzo della memoria

ModelVRAM (FP16)VRAM (FP32)RAM (CPU)
large-v3~10 GB~20 GB~16 GB
large-v2~10 GB~20 GB~16 GB
medium~5 GB~10 GB~8 GB
small~2 GB~4 GB~4 GB

Requisiti di archiviazione

ModelModel File SizeDisk Space
large-v3~3.0 GB~3.0 GB
large-v2~3.0 GB~3.0 GB
medium~1.5 GB~1.5 GB
small~500 MB~500 MB

Confronto delle prestazioni: large-v3 vs large-v2

Miglioramenti di accuratezza

Metriclarge-v2large-v3Improvement
Clean Audio WER2.4%2.1%+12.5%
Real-World WER4.3%3.8%+12%
Noisy Audio WER5.9%5.2%+12%
Phone Call WER6.8%6.1%+10%
Accented Speech WER5.4%4.8%+11%
Sintesi: large-v3 mostra un miglioramento di accuratezza costante del 10–12% in tutte le condizioni.

Confronto di velocità

Metriclarge-v2large-v3Difference
GPU RTF (FP16)0.15x0.15xSame
CPU RTF8.5x8.5xSame
Memory Usage~10 GB~10 GBSame
Sintesi: large-v3 mantiene la stessa velocità e lo stesso utilizzo delle risorse di large-v2.

Metodologia dei benchmark

Dataset di test

I benchmark sopra si basano su:
  1. LibriSpeech: inglese pulito e rumoroso
  2. Common Voice: audio multilingue reale
  3. TED Talks: parlato naturale con accenti
  4. Phone Call Datasets: audio telefonico
  5. Real-World Recordings: podcast, riunioni, interviste

Metriche di valutazione

  • WER (Word Error Rate): metrica principale di accuratezza
  • RTF (Real-Time Factor): metrica di velocità
  • Utilizzo memoria: requisiti VRAM/RAM
  • Latenza: tempo alla prima parola (streaming)

Condizioni di test

  • Hardware: NVIDIA RTX 4090 (GPU), Intel i7-12700K (CPU)
  • Software: Whisper v20231117, PyTorch 2.1, CUDA 12.1
  • Impostazioni: temperature=0.0, best_of=5, beam_size=5
  • Audio: 16 kHz mono, formato WAV

Insight sulle prestazioni nel mondo reale

Quando usare large-v3

Scegliete large-v3 quando:
  • ✅ l'accuratezza massima è critica
  • ✅ avete GPU disponibili
  • ✅ il tempo di elaborazione non è il vincolo principale
  • ✅ lavorate con audio rumoroso o accentato
  • ✅ serve trascrizione multilingue
  • ✅ i casi d'uso sono professionali o commerciali

Quando usare altri modelli

Scegliete large-v2 quando:
  • ✅ volete prestazioni simili a v3 ma stabilità comprovata
  • ✅ la vostra infrastruttura è già ottimizzata per v2
Scegliete medium quando:
  • ✅ serve maggiore velocità di elaborazione
  • ✅ i requisiti di accuratezza sono moderati
  • ✅ la memoria GPU è limitata (~5 GB disponibili)
Scegliete small quando:
  • ✅ la velocità è critica
  • ✅ i requisiti di accuratezza sono inferiori
  • ✅ le risorse di calcolo sono limitate

Suggerimenti per ottimizzare le prestazioni

Per accuratezza massima

import whisper

model = whisper.load_model("large-v3")

result = model.transcribe(
    audio,
    language="en",  # Specify if known
    temperature=0.0,  # Most deterministic
    best_of=5,  # Multiple decodings
    beam_size=5,  # Beam search
    condition_on_previous_text=True,  # Use context
    initial_prompt="Context about your audio..."
)
WER atteso: 2,1–3,8% a seconda della qualità audio

Per bilanciare velocità e accuratezza

model = whisper.load_model("large-v3")

result = model.transcribe(
    audio,
    language="en",
    temperature=0.0,
    best_of=1,  # Single decoding (faster)
    beam_size=5,
    condition_on_previous_text=True
)
WER atteso: 2,3–4,0% (leggermente più alto ma ~5× più veloce)

Riepilogo dei risultati dei benchmark

Riepilogo accuratezza

Conditionlarge-v3 WERRank
Clean Audio2.1%🥇 Best
Real-World3.8%🥇 Best
Noisy Audio5.2%🥇 Best
Phone Calls6.1%🥇 Best
Accented Speech4.8%🥇 Best

Riepilogo velocità

Hardwarelarge-v3 RTFStatus
GPU (RTX 4090)0.15x⚡ Very Fast
CPU (i7-12700K)8.5x🐌 Slow

Riepilogo risorse

ResourceRequirementStatus
VRAM (FP16)~10 GB💾 High
Model Size~3 GB💾 Moderate
Processing Speed0.15x RTF⚡ Fast

Confronto con altri modelli

large-v3 vs API commerciali

ServiceWER (Clean)WER (Noisy)Cost
Whisper large-v32.1%5.2%Free (self-hosted)
Google Speech-to-Text2.3%5.8%$0.006/min
Deepgram2.5%6.1%$0.0043/min
AssemblyAI2.6%6.3%$0.00025/min
Risultato: large-v3 eguaglia o supera l'accuratezza delle API commerciali ed è gratuito (self-hosted).

Raccomandazioni pratiche

Per la produzione

  1. Usate large-v3 per l'accuratezza massima
  2. Distribuite su GPU per una velocità ragionevole
  3. Usate impostazioni ottimizzate (temperature=0.0, best_of=5)
  4. Segmentate gli audio lunghi per maggiore accuratezza
  5. Indicate la lingua quando è nota

Per sviluppo e test

  1. Usate il modello medium per iterare più velocemente
  2. Passate a large-v3 per la validazione finale dell'accuratezza
  3. Testate su audio rappresentativo del vostro caso d'uso

Per deployment attenti ai costi

  1. Usate large-v3 (gratuito, self-hosted)
  2. Ottimizzate l'elaborazione batch per massimizzare la GPU
  3. Valutate medium se i costi GPU sono troppo alti

Limitazioni e considerazioni

Limitazioni note

  1. Non in tempo reale: elaborazione a batch
  2. Memoria elevata: richiede ~10 GB di VRAM
  3. Dipendenza dalla GPU: la CPU è molto lenta
  4. Niente streaming: servono chunk audio completi
  5. Niente diarizzazione: servono strumenti separati

Quando large-v3 non è la scelta migliore

  • Trascrizione in tempo reale: usate ASR in streaming
  • Latenza molto bassa: modelli specializzati
  • GPU limitata: modelli medium o small
  • Casi semplici: modelli più piccoli possono bastare

Conclusione

Whisper large-v3 rappresenta lo stato dell'arte open source nel riconoscimento vocale:
  • Migliore accuratezza: 2,1% WER su audio pulito
  • Miglioramenti costanti: 10–12% in più rispetto a large-v2
  • Stessa velocità: nessuna penalità rispetto a large-v2
  • Eccellenza multilingue: buone prestazioni su 99+ lingue
  • Robustezza al rumore: ottimo in condizioni reali
Punti chiave:
  1. large-v3 è la scelta migliore per l'accuratezza massima
  2. La GPU è essenziale per una velocità ragionevole
  3. Miglioramento di accuratezza del 10–12% su large-v2 in tutte le condizioni
  4. Gratuito e open source con accuratezza da API commerciale
  5. Ideale per: trascrizione professionale, contenuti multilingue, audio rumoroso
Per la maggior parte dei casi di produzione che richiedono alta accuratezza, Whisper large-v3 è la scelta consigliata.

Per una trascrizione pronta per la produzione con prestazioni Whisper large-v3 ottimizzate, piattaforme come SayToWords offrono infrastruttura gestita e ottimizzazione automatica per i migliori risultati.

Provalo gratis ora

Prova subito il nostro servizio basato su IA per voce, audio e video! Non solo ottieni una trascrizione voce‑testo ad alta precisione, traduzione multilingue e identificazione intelligente dei parlanti, ma puoi anche generare automaticamente sottotitoli per i video, modificare in modo intelligente i contenuti audio‑video ed effettuare analisi sincronizzate di audio e immagine. Copri tutti gli scenari: verbali di riunioni, creazione di video brevi, produzione di podcast e molto altro. Inizia ora la tua prova gratuita!

Suono a Testo OnlineSuono a Testo GratuitoConvertitore Suono in TestoSuono a Testo MP3Suono a Testo WAVSuono a Testo con TimestampVoce in testo per riunioniSound to Text Multi LanguageSuono a Testo SottotitoliConvertire WAV in testoVoce in TestoVoce in Testo OnlineVoce in TestoConvertire MP3 in TestoConvertire registrazione vocale in testoDigitazione Vocale OnlineVoce in Testo con TimestampVoce in Testo in Tempo RealeVoce in Testo per Audio LunghiVoce in Testo per VideoVoce a Testo per YouTubeVoce a Testo per Montaggio VideoVoce a Testo per SottotitoliVoce a Testo per PodcastVoce a Testo per IntervisteAudio Intervista in TestoVoce a Testo per RegistrazioniVoce a Testo per RiunioniVoce a Testo per LezioniVoce a Testo per NoteVoce in Testo MultilingueVoce in Testo PrecisaVoce in Testo VeloceAlternativa Premiere Pro Voce in TestoAlternativa DaVinci Voce in TestoAlternativa VEED Voce in TestoAlternativa InVideo Voce in TestoAlternativa Otter.ai Voce in TestoAlternativa Descript Voce in TestoAlternativa Trint Voce in TestoAlternativa Rev Voce in TestoAlternativa Sonix Voce in TestoAlternativa Happy Scribe Voce in TestoAlternativa Zoom Voce in TestoAlternativa Google Meet Voce in TestoAlternativa Microsoft Teams Voce in TestoAlternativa Fireflies.ai Voce in TestoAlternativa Fathom Voce in TestoAlternativa FlexClip Voce in TestoAlternativa Kapwing Voce in TestoAlternativa Canva Voce in TestoVoce a Testo per Audio LunghiVoce IA in TestoVoce in Testo GratuitoVoce in Testo Senza PubblicitàVoce in Testo per Audio RumorosoVoce in Testo con TempoGenera Sottotitoli da AudioTrascrizione Podcast OnlineTrascrivi Chiamate ClientiVoce TikTok a TestoAudio TikTok a TestoVoce YouTube in TestoAudio YouTube in TestoMemo Vocale in TestoMessaggio Vocale WhatsApp in TestoMessaggio Vocale Telegram in TestoTrascrizione Chiamata DiscordVoce Twitch in TestoVoce Skype in TestoVoce Messenger in TestoMessaggio Vocale LINE in TestoTrascrivi Vlog in TestoConverti Audio Sermone in TestoConverti Parlato in ScritturaTraduci Audio in TestoConverti Note Audio in TestoDigitazione VocaleDigitazione Vocale per RiunioniDigitazione Vocale per YouTubeParla per ScrivereDigitazione Senza ManiVoce in ParoleParlato in ParoleParlato in Testo OnlineOnline Transcription SoftwareParlato in Testo per RiunioniParlato in Testo VeloceReal Time Speech to TextLive Transcription AppParlato in Testo per TikTokSuono in Testo per TikTokParlare in ParoleParlato in TestoTalk to Text FreeTalk to Text OnlineTalk to Text for YouTubeTalk to Text for SubtitlesTalk to Text for Content CreatorsTalk to Text for MeetingsAudio in DigitazioneSuono in TestoStrumento di Scrittura VocaleStrumento di Scrittura VocaleDettatura VocaleStrumento di Trascrizione LegaleStrumento di Dettatura MedicaTrascrizione Audio GiapponeseTrascrizione Riunioni CoreaneStrumento di Trascrizione RiunioniAudio Riunione in TestoConvertitore Lezione a TestoAudio Lezione in TestoTrascrizione Video a TestoGeneratore di Sottotitoli per TikTokTrascrizione Call CenterStrumento Audio Reels a TestoTrascrivere MP3 in TestoTrascrivere file WAV in testoCapCut Voce in TestoCapCut Voce in TestoVoice to Text in EnglishAudio in Testo IngleseVoice to Text in SpanishVoice to Text in FrenchAudio in Testo FranceseVoice to Text in GermanAudio in Testo TedescoVoice to Text in JapaneseAudio in Testo GiapponeseVoice to Text in KoreanAudio in Testo CoreanoVoice to Text in PortugueseVoice to Text in ArabicVoice to Text in ChineseVoice to Text in HindiVoice to Text in RussianWeb Voice Typing ToolVoice Typing Website