
Whisper Large v3 Turbo su un’intervista in inglese — benchmark del 28 marzo 2026 (WER, CER, RTF)
2026-03-28Test
Eric King
Author
Questa nota documenta una singola esecuzione a configurazione fissa su audio in stile intervista in inglese (~8,5 minuti). Lo scorer segnala un word error rate vicino al 69%, con le cancellazioni che dominano il budget di errore (2192 cancellazioni vs 188 sostituzioni, 0 inserimenti). Questo schema di solito indica che il testo ipotesi copre molto meno la riferimento di una trascrizione «rumorosa ma completa» tipica; i numeri vanno quindi letti come diagnostici, insieme a un controllo manuale che l’output del modello e il riferimento descrivano la stessa registrazione e segmentazione.
Video e testo di riferimento. L’audio in prova proviene da un video sorgente (link sotto). Il WebVTT di riferimento (
ref.vtt) è la traccia dei sottotitoli fornita con quel video — esportata o salvata come WebVTT dai sottotitoli della piattaforma — non una trascrizione «oro» redatta in modo indipendente. L’ipotesi (model.vtt) è l’ASR Whisper large-v3-turbo sullo stesso audio. Le metriche confrontano quindi i sottotitoli forniti dalla piattaforma con questa esecuzione ASR, una baseline pratica ma non equivalente a uno score contro trascrizioni di ricerca curate a mano.1. Perché questo benchmark conta
L’audio da intervista mette alla prova l’ASR con parlato sovrapposto, ritmo irregolare, nomi e numeri — condizioni comuni nel lavoro editoriale e di ricerca. Pubblicare id del modello, lingua, durata, timestamp e metriche standard rende l’esecuzione comparabile con riesecuzioni o altre pipeline; l’obiettivo è trasparenza, non una promessa di prodotto.
2. Configurazione del test
Salvo diversa indicazione, i valori seguenti provengono da
other.yaml e result.json per questo caso.| Campo | Valore |
|---|---|
| Data (finestra di elaborazione) | 2026-03-28 (vedere processtime-at / completed-at in other.yaml) |
| Scenario | Contenuto in stile intervista in inglese (tag lingua: English) |
| Modello Whisper | large-v3-turbo (whisper-model in other.yaml) |
| Durata audio (YAML) | 08:25 (etichetta 8 min 25 s a tempo reale) |
| Durata audio (scorer) | 506.88 s (dall’intervallo di cue del VTT di riferimento in result.json) |
| Intervallo di elaborazione a tempo reale | processtime-at: 2026-03-28 09:56:40.204 → completed-at: 2026-03-28 09:57:57.000 |
| Tempo di elaborazione STT derivato | ≈ 76.8 s (differenza tra i due timestamp sopra; non memorizzato in result.json perché questa esecuzione ha usato la modalità VTT esplicita senza YAML allegato all’output dello scorer) |
| RTF derivato | ≈ 0.151 (tempo di elaborazione ÷ 506.88 s di durata audio) |
Nota:
result.json elenca "yamlMeta": null per questa esecuzione esplicita a due file; l’RTF lì è null. Tempo di elaborazione e RTF in questo articolo sono ricalcolati da other.yaml per coerenza con la sezione metodologia.3. Metodologia di valutazione
Riferimento e ipotesi sono file WebVTT. Si estrae testo semplice dalle cue (timestamp e indici rimossi), poi si normalizza (maiuscole/minuscole, punteggiatura e tipografia semplice) prima dello scoring.
Allineamento a livello di parola
Riferimento e ipotesi sono allineati come sequenze di token. Un programma dinamico in stile Levenshtein standard trova un percorso di costo minimo tra le due sequenze di parole; il backtracking produce conteggi di sostituzioni (S), cancellazioni (D) e inserimenti (I) rispetto alla lunghezza di riferimento N.
Word Error Rate (WER) e accuratezza
Siano (S), (D) e (I) i conteggi di sostituzione, cancellazione e inserimento, e (N) il numero di parole di riferimento.
[
\mathrm{WER} = \frac{S + D + I}{N}, \qquad \mathrm{Accuracy} = 1 - \mathrm{WER}.
]
Character Error Rate (CER)
Gli spazi bianchi sono rimossi dalle stringhe normalizzate. La distanza di modifica a caratteri è la distanza di Levenshtein a livello di carattere; il conteggio di caratteri di riferimento è la lunghezza della stringa di riferimento senza spazi.
[
\mathrm{CER} = \frac{\text{Character edit distance}}{\text{Reference character count}}.
]
Real-Time Factor (RTF)
[
\mathrm{RTF} = \frac{\text{Processing time (seconds)}}{\text{Audio duration (seconds)}}.
]
Un RTF inferiore a 1 significa che la decodifica è stata più veloce del tempo reale su questo hardware/esecuzione.
4. Panoramica del modello
Whisper large-v3-turbo appartiene alla famiglia «large» e scambia parte del calcolo per throughput rispetto ai checkpoint large completi (il comportamento esatto dipende da implementazione e hardware). È un ASR multilingue generico adatto a bozze e indicizzazione di ricerca dove non si assume fedeltà perfetta. Questo test riguarda una configurazione da
other.yaml; nessuna sweep di temperatura, chunking o VAD.5. Risultati (da result.json)
Valori esatti dall’oggetto metriche precalcolato:
- Conteggio parole di riferimento (N): 3442
- Sostituzioni (S): 188
- Cancellazioni (D): 2192
- Inserimenti (I): 0
- WER: 0.6914584543869843
- Accuratezza: 0.3085415456130157
- Conteggio caratteri di riferimento: 15790
- Distanza di modifica caratteri: 10494
- CER: 0.664597846738442
- Durata audio (secondi): 506.88
- Tempo di elaborazione STT (nel JSON):
null(vedere la sezione 2 per la durata derivata dal YAML) - RTF (nel JSON):
null(RTF derivato ≈ 0.151 usando i timestamp YAML) - Runtime script di valutazione: 3.11 s
Arrotondato per la lettura
- WER ≈ 69.1%; accuratezza ≈ 30.9%
- CER ≈ 66.5%
- ~10.5k modifiche a carattere su ~15.8k caratteri di riferimento
- RTF ≈ 0.15× (più veloce del tempo reale su questo clip, usando il tempo di elaborazione derivato dal YAML)
6. Analisi del pattern di errore
Con I = 0, l’ipotesi non aggiunge parole spurie rispetto a questo allineamento; quasi tutta la massa di errore a livello di parola è cancellazioni e sostituzioni, e le cancellazioni sono di un ordine di grandezza maggiori delle sostituzioni (2192 vs 188).
Interpretazione pratica:
- Profili ricchi di cancellazioni spesso indicano segmenti mancanti nell’ipotesi (gestione del silenzio, arresto anticipato, lunghezza del clip diversa, o riferimento più lungo dell’audio effettivamente trascritto).
- Zero inserimenti raramente appare in ASR del mondo reale disordinato; insieme a un WER estremo, è un segnale per verificare l’accoppiamento dei dati (stesso file, stessa lingua, stessa edizione del riferimento) prima di attribuire il punteggio solo alla «qualità del modello».
Un CER ~66% è coerente con lunghi tratti di testo che non combaciano tra riferimento e ipotesi — non solo scambi occasionali di parole.
7. Spunti principali
- Velocità: Un RTF derivato ≈ 0.15 suggerisce che lo stack ha finito in una frazione del tempo reale per questo clip — utile dove conta la latenza, indipendentemente dal WER grezzo.
- Accuratezza: Un WER ~69% non è sufficiente per citazioni pubblicabili o trascrizioni di livello legale senza revisione umana intensiva.
- Forma dell’errore: Dominano le cancellazioni; dare priorità all’analisi di copertura e allineamento dei segmenti prima di tarare gli iperparametri di decodifica.
- Limiti del campione unico: Un’intervista e una configurazione del modello non definiscono le prestazioni attese in produzione su accenti, codec o rumore.
- Riproducibilità: Tenere insieme tutti e quattro gli artefatti preserva un’istantanea congelata.
8. Miglior modello per questo scenario
Solo per questo clip e questo riferimento, Whisper large-v3-turbo è una baseline documentata: i timestamp descrivono il throughput; WER/CER descrivono lo scostamento rispetto al vostro riferimento. Non si sostiene che sia il miglior modello per tutte le interviste in inglese.
9. Verdetto finale neutro
Per bozze di note, ricerca interna o indicizzazione approssimativa dove gli errori sono accettabili e conta la velocità, un RTF basso e una trascrizione archiviata possono restare utilizzabili con disclaimer chiari.
Per citare i partecipanti, flussi sensibili alla conformità o pubblicazione d’archivio, l’accuratezza lessicale ~31% di questa esecuzione e il profilo di errore ricco di cancellazioni implicano che vada prevista revisione umana o una diversa acquisizione/allineamento del riferimento finché i punteggi non migliorano su coppie validate.
Rieseguire lo scorer dopo aver corretto i problemi di dati; la metodologia resta comparabile.
Materiali di origine
Nome cartella del caso:
20260328 (prefisso percorso repository: test-transcripts/20260328/).- Video originale (sorgente audio): Aggiungere l’URL canonico allo stesso video i cui sottotitoli sono stati usati come riferimento (es. link di visione YouTube). L’audio elaborato per l’ASR deve corrispondere a questo caricamento.
- Trascrizione di riferimento (VTT):
test-transcripts/20260328/ref.vtt— sottotitoli forniti con il video sorgente, salvati come WebVTT per lo scoring. - Trascrizione del modello (VTT):
test-transcripts/20260328/model.vtt— output Whisper large-v3-turbo su quell’audio. - Metadati dell’esecuzione:
test-transcripts/20260328/other.yaml - Metriche di valutazione precalcolate:
test-transcripts/20260328/result.json
La valutazione è stata prodotta con
scripts/evaluate-vtt-metrics.js in questo repository. Posizionare i file sopra sotto test-transcripts/20260328/ per riprodurre i numeri citati.