Whisper Large v3 Turbo su un’intervista in inglese — benchmark del 28 marzo 2026 (WER, CER, RTF)

Whisper Large v3 Turbo su un’intervista in inglese — benchmark del 28 marzo 2026 (WER, CER, RTF)

2026-03-28Test
Eric King

Eric King

Author


Questa nota documenta una singola esecuzione a configurazione fissa su audio in stile intervista in inglese (~8,5 minuti). Lo scorer segnala un word error rate vicino al 69%, con le cancellazioni che dominano il budget di errore (2192 cancellazioni vs 188 sostituzioni, 0 inserimenti). Questo schema di solito indica che il testo ipotesi copre molto meno la riferimento di una trascrizione «rumorosa ma completa» tipica; i numeri vanno quindi letti come diagnostici, insieme a un controllo manuale che l’output del modello e il riferimento descrivano la stessa registrazione e segmentazione.
Video e testo di riferimento. L’audio in prova proviene da un video sorgente (link sotto). Il WebVTT di riferimento (ref.vtt) è la traccia dei sottotitoli fornita con quel video — esportata o salvata come WebVTT dai sottotitoli della piattaforma — non una trascrizione «oro» redatta in modo indipendente. L’ipotesi (model.vtt) è l’ASR Whisper large-v3-turbo sullo stesso audio. Le metriche confrontano quindi i sottotitoli forniti dalla piattaforma con questa esecuzione ASR, una baseline pratica ma non equivalente a uno score contro trascrizioni di ricerca curate a mano.

1. Perché questo benchmark conta

L’audio da intervista mette alla prova l’ASR con parlato sovrapposto, ritmo irregolare, nomi e numeri — condizioni comuni nel lavoro editoriale e di ricerca. Pubblicare id del modello, lingua, durata, timestamp e metriche standard rende l’esecuzione comparabile con riesecuzioni o altre pipeline; l’obiettivo è trasparenza, non una promessa di prodotto.

2. Configurazione del test

Salvo diversa indicazione, i valori seguenti provengono da other.yaml e result.json per questo caso.
CampoValore
Data (finestra di elaborazione)2026-03-28 (vedere processtime-at / completed-at in other.yaml)
ScenarioContenuto in stile intervista in inglese (tag lingua: English)
Modello Whisperlarge-v3-turbo (whisper-model in other.yaml)
Durata audio (YAML)08:25 (etichetta 8 min 25 s a tempo reale)
Durata audio (scorer)506.88 s (dall’intervallo di cue del VTT di riferimento in result.json)
Intervallo di elaborazione a tempo realeprocesstime-at: 2026-03-28 09:56:40.204completed-at: 2026-03-28 09:57:57.000
Tempo di elaborazione STT derivato76.8 s (differenza tra i due timestamp sopra; non memorizzato in result.json perché questa esecuzione ha usato la modalità VTT esplicita senza YAML allegato all’output dello scorer)
RTF derivato0.151 (tempo di elaborazione ÷ 506.88 s di durata audio)
Nota: result.json elenca "yamlMeta": null per questa esecuzione esplicita a due file; l’RTF lì è null. Tempo di elaborazione e RTF in questo articolo sono ricalcolati da other.yaml per coerenza con la sezione metodologia.

3. Metodologia di valutazione

Riferimento e ipotesi sono file WebVTT. Si estrae testo semplice dalle cue (timestamp e indici rimossi), poi si normalizza (maiuscole/minuscole, punteggiatura e tipografia semplice) prima dello scoring.
Allineamento a livello di parola
Riferimento e ipotesi sono allineati come sequenze di token. Un programma dinamico in stile Levenshtein standard trova un percorso di costo minimo tra le due sequenze di parole; il backtracking produce conteggi di sostituzioni (S), cancellazioni (D) e inserimenti (I) rispetto alla lunghezza di riferimento N.
Word Error Rate (WER) e accuratezza
Siano (S), (D) e (I) i conteggi di sostituzione, cancellazione e inserimento, e (N) il numero di parole di riferimento.
[ \mathrm{WER} = \frac{S + D + I}{N}, \qquad \mathrm{Accuracy} = 1 - \mathrm{WER}. ]
Character Error Rate (CER)
Gli spazi bianchi sono rimossi dalle stringhe normalizzate. La distanza di modifica a caratteri è la distanza di Levenshtein a livello di carattere; il conteggio di caratteri di riferimento è la lunghezza della stringa di riferimento senza spazi.
[ \mathrm{CER} = \frac{\text{Character edit distance}}{\text{Reference character count}}. ]
Real-Time Factor (RTF)
[ \mathrm{RTF} = \frac{\text{Processing time (seconds)}}{\text{Audio duration (seconds)}}. ]
Un RTF inferiore a 1 significa che la decodifica è stata più veloce del tempo reale su questo hardware/esecuzione.

4. Panoramica del modello

Whisper large-v3-turbo appartiene alla famiglia «large» e scambia parte del calcolo per throughput rispetto ai checkpoint large completi (il comportamento esatto dipende da implementazione e hardware). È un ASR multilingue generico adatto a bozze e indicizzazione di ricerca dove non si assume fedeltà perfetta. Questo test riguarda una configurazione da other.yaml; nessuna sweep di temperatura, chunking o VAD.

5. Risultati (da result.json)

Valori esatti dall’oggetto metriche precalcolato:
  • Conteggio parole di riferimento (N): 3442
  • Sostituzioni (S): 188
  • Cancellazioni (D): 2192
  • Inserimenti (I): 0
  • WER: 0.6914584543869843
  • Accuratezza: 0.3085415456130157
  • Conteggio caratteri di riferimento: 15790
  • Distanza di modifica caratteri: 10494
  • CER: 0.664597846738442
  • Durata audio (secondi): 506.88
  • Tempo di elaborazione STT (nel JSON): null (vedere la sezione 2 per la durata derivata dal YAML)
  • RTF (nel JSON): null (RTF derivato ≈ 0.151 usando i timestamp YAML)
  • Runtime script di valutazione: 3.11 s
Arrotondato per la lettura
  • WER ≈ 69.1%; accuratezza ≈ 30.9%
  • CER ≈ 66.5%
  • ~10.5k modifiche a carattere su ~15.8k caratteri di riferimento
  • RTF ≈ 0.15× (più veloce del tempo reale su questo clip, usando il tempo di elaborazione derivato dal YAML)

6. Analisi del pattern di errore

Con I = 0, l’ipotesi non aggiunge parole spurie rispetto a questo allineamento; quasi tutta la massa di errore a livello di parola è cancellazioni e sostituzioni, e le cancellazioni sono di un ordine di grandezza maggiori delle sostituzioni (2192 vs 188).
Interpretazione pratica:
  • Profili ricchi di cancellazioni spesso indicano segmenti mancanti nell’ipotesi (gestione del silenzio, arresto anticipato, lunghezza del clip diversa, o riferimento più lungo dell’audio effettivamente trascritto).
  • Zero inserimenti raramente appare in ASR del mondo reale disordinato; insieme a un WER estremo, è un segnale per verificare l’accoppiamento dei dati (stesso file, stessa lingua, stessa edizione del riferimento) prima di attribuire il punteggio solo alla «qualità del modello».
Un CER ~66% è coerente con lunghi tratti di testo che non combaciano tra riferimento e ipotesi — non solo scambi occasionali di parole.

7. Spunti principali

  • Velocità: Un RTF derivato ≈ 0.15 suggerisce che lo stack ha finito in una frazione del tempo reale per questo clip — utile dove conta la latenza, indipendentemente dal WER grezzo.
  • Accuratezza: Un WER ~69% non è sufficiente per citazioni pubblicabili o trascrizioni di livello legale senza revisione umana intensiva.
  • Forma dell’errore: Dominano le cancellazioni; dare priorità all’analisi di copertura e allineamento dei segmenti prima di tarare gli iperparametri di decodifica.
  • Limiti del campione unico: Un’intervista e una configurazione del modello non definiscono le prestazioni attese in produzione su accenti, codec o rumore.
  • Riproducibilità: Tenere insieme tutti e quattro gli artefatti preserva un’istantanea congelata.

8. Miglior modello per questo scenario

Solo per questo clip e questo riferimento, Whisper large-v3-turbo è una baseline documentata: i timestamp descrivono il throughput; WER/CER descrivono lo scostamento rispetto al vostro riferimento. Non si sostiene che sia il miglior modello per tutte le interviste in inglese.

9. Verdetto finale neutro

Per bozze di note, ricerca interna o indicizzazione approssimativa dove gli errori sono accettabili e conta la velocità, un RTF basso e una trascrizione archiviata possono restare utilizzabili con disclaimer chiari.
Per citare i partecipanti, flussi sensibili alla conformità o pubblicazione d’archivio, l’accuratezza lessicale ~31% di questa esecuzione e il profilo di errore ricco di cancellazioni implicano che vada prevista revisione umana o una diversa acquisizione/allineamento del riferimento finché i punteggi non migliorano su coppie validate.
Rieseguire lo scorer dopo aver corretto i problemi di dati; la metodologia resta comparabile.

Materiali di origine

Nome cartella del caso: 20260328 (prefisso percorso repository: test-transcripts/20260328/).
  • Video originale (sorgente audio): Aggiungere l’URL canonico allo stesso video i cui sottotitoli sono stati usati come riferimento (es. link di visione YouTube). L’audio elaborato per l’ASR deve corrispondere a questo caricamento.
  • Trascrizione di riferimento (VTT): test-transcripts/20260328/ref.vttsottotitoli forniti con il video sorgente, salvati come WebVTT per lo scoring.
  • Trascrizione del modello (VTT): test-transcripts/20260328/model.vtt — output Whisper large-v3-turbo su quell’audio.
  • Metadati dell’esecuzione: test-transcripts/20260328/other.yaml
  • Metriche di valutazione precalcolate: test-transcripts/20260328/result.json
La valutazione è stata prodotta con scripts/evaluate-vtt-metrics.js in questo repository. Posizionare i file sopra sotto test-transcripts/20260328/ per riprodurre i numeri citati.

Provalo gratis ora

Prova subito il nostro servizio basato su IA per voce, audio e video! Non solo ottieni una trascrizione voce‑testo ad alta precisione, traduzione multilingue e identificazione intelligente dei parlanti, ma puoi anche generare automaticamente sottotitoli per i video, modificare in modo intelligente i contenuti audio‑video ed effettuare analisi sincronizzate di audio e immagine. Copri tutti gli scenari: verbali di riunioni, creazione di video brevi, produzione di podcast e molto altro. Inizia ora la tua prova gratuita!

Suono a Testo OnlineSuono a Testo GratuitoConvertitore Suono in TestoSuono a Testo MP3Suono a Testo WAVSuono a Testo con TimestampVoce in testo per riunioniSound to Text Multi LanguageSuono a Testo SottotitoliConvertire WAV in testoVoce in TestoVoce in Testo OnlineVoce in TestoConvertire MP3 in TestoConvertire registrazione vocale in testoDigitazione Vocale OnlineVoce in Testo con TimestampVoce in Testo in Tempo RealeVoce in Testo per Audio LunghiVoce in Testo per VideoVoce a Testo per YouTubeVoce a Testo per Montaggio VideoVoce a Testo per SottotitoliVoce a Testo per PodcastVoce a Testo per IntervisteAudio Intervista in TestoVoce a Testo per RegistrazioniVoce a Testo per RiunioniVoce a Testo per LezioniVoce a Testo per NoteVoce in Testo MultilingueVoce in Testo PrecisaVoce in Testo VeloceAlternativa Premiere Pro Voce in TestoAlternativa DaVinci Voce in TestoAlternativa VEED Voce in TestoAlternativa InVideo Voce in TestoAlternativa Otter.ai Voce in TestoAlternativa Descript Voce in TestoAlternativa Trint Voce in TestoAlternativa Rev Voce in TestoAlternativa Sonix Voce in TestoAlternativa Happy Scribe Voce in TestoAlternativa Zoom Voce in TestoAlternativa Google Meet Voce in TestoAlternativa Microsoft Teams Voce in TestoAlternativa Fireflies.ai Voce in TestoAlternativa Fathom Voce in TestoAlternativa FlexClip Voce in TestoAlternativa Kapwing Voce in TestoAlternativa Canva Voce in TestoVoce a Testo per Audio LunghiVoce IA in TestoVoce in Testo GratuitoVoce in Testo Senza PubblicitàVoce in Testo per Audio RumorosoVoce in Testo con TempoGenera Sottotitoli da AudioTrascrizione Podcast OnlineTrascrivi Chiamate ClientiVoce TikTok a TestoAudio TikTok a TestoVoce YouTube in TestoAudio YouTube in TestoMemo Vocale in TestoMessaggio Vocale WhatsApp in TestoMessaggio Vocale Telegram in TestoTrascrizione Chiamata DiscordVoce Twitch in TestoVoce Skype in TestoVoce Messenger in TestoMessaggio Vocale LINE in TestoTrascrivi Vlog in TestoConverti Audio Sermone in TestoConverti Parlato in ScritturaTraduci Audio in TestoConverti Note Audio in TestoDigitazione VocaleDigitazione Vocale per RiunioniDigitazione Vocale per YouTubeParla per ScrivereDigitazione Senza ManiVoce in ParoleParlato in ParoleParlato in Testo OnlineOnline Transcription SoftwareParlato in Testo per RiunioniParlato in Testo VeloceReal Time Speech to TextLive Transcription AppParlato in Testo per TikTokSuono in Testo per TikTokParlare in ParoleParlato in TestoTalk to Text FreeTalk to Text OnlineTalk to Text for YouTubeTalk to Text for SubtitlesTalk to Text for Content CreatorsTalk to Text for MeetingsAudio in DigitazioneSuono in TestoStrumento di Scrittura VocaleStrumento di Scrittura VocaleDettatura VocaleStrumento di Trascrizione LegaleStrumento di Dettatura MedicaTrascrizione Audio GiapponeseTrascrizione Riunioni CoreaneStrumento di Trascrizione RiunioniAudio Riunione in TestoConvertitore Lezione a TestoAudio Lezione in TestoTrascrizione Video a TestoGeneratore di Sottotitoli per TikTokTrascrizione Call CenterStrumento Audio Reels a TestoTrascrivere MP3 in TestoTrascrivere file WAV in testoCapCut Voce in TestoCapCut Voce in TestoVoice to Text in EnglishAudio in Testo IngleseVoice to Text in SpanishVoice to Text in FrenchAudio in Testo FranceseVoice to Text in GermanAudio in Testo TedescoVoice to Text in JapaneseAudio in Testo GiapponeseVoice to Text in KoreanAudio in Testo CoreanoVoice to Text in PortugueseVoice to Text in ArabicVoice to Text in ChineseVoice to Text in HindiVoice to Text in RussianWeb Voice Typing ToolVoice Typing Website