Whisper Large v3 Turbo su un’intervista in inglese — benchmark del 28 marzo 2026 (WER, CER, RTF)

Questa nota documenta una singola esecuzione a configurazione fissa su audio in stile intervista in inglese (~8,5 minuti). Lo scorer segnala un word error rate vicino al 69%, con le cancellazioni che dominano il budget di errore (2192 cancellazioni vs 188 sostituzioni, 0 inserimenti). Questo schema di solito indica che il testo ipotesi copre molto meno la riferimento di una trascrizione «rumorosa ma completa» tipica; i numeri vanno quindi letti come diagnostici, insieme a un controllo manuale che l’output del modello e il riferimento descrivano la stessa registrazione e segmentazione.

Video e testo di riferimento. L’audio in prova proviene da un video sorgente (link sotto). Il WebVTT di riferimento (ref.vtt) è la traccia dei sottotitoli fornita con quel video — esportata o salvata come WebVTT dai sottotitoli della piattaforma — non una trascrizione «oro» redatta in modo indipendente. L’ipotesi (model.vtt) è l’ASR Whisper large-v3-turbo sullo stesso audio. Le metriche confrontano quindi i sottotitoli forniti dalla piattaforma con questa esecuzione ASR, una baseline pratica ma non equivalente a uno score contro trascrizioni di ricerca curate a mano.

1. Perché questo benchmark conta

L’audio da intervista mette alla prova l’ASR con parlato sovrapposto, ritmo irregolare, nomi e numeri — condizioni comuni nel lavoro editoriale e di ricerca. Pubblicare id del modello, lingua, durata, timestamp e metriche standard rende l’esecuzione comparabile con riesecuzioni o altre pipeline; l’obiettivo è trasparenza, non una promessa di prodotto.

2. Configurazione del test

Salvo diversa indicazione, i valori seguenti provengono da other.yaml e result.json per questo caso.

Campo	Valore
Data (finestra di elaborazione)	2026-03-28 (vedere `processtime-at` / `completed-at` in `other.yaml`)
Scenario	Contenuto in stile intervista in inglese (tag lingua: English)
Modello Whisper	large-v3-turbo (`whisper-model` in `other.yaml`)
Durata audio (YAML)	08:25 (etichetta 8 min 25 s a tempo reale)
Durata audio (scorer)	506.88 s (dall’intervallo di cue del VTT di riferimento in `result.json`)
Intervallo di elaborazione a tempo reale	`processtime-at`: 2026-03-28 09:56:40.204 → `completed-at`: 2026-03-28 09:57:57.000
Tempo di elaborazione STT derivato	≈ 76.8 s (differenza tra i due timestamp sopra; non memorizzato in `result.json` perché questa esecuzione ha usato la modalità VTT esplicita senza YAML allegato all’output dello scorer)
RTF derivato	≈ 0.151 (tempo di elaborazione ÷ 506.88 s di durata audio)

Nota: result.json elenca "yamlMeta": null per questa esecuzione esplicita a due file; l’RTF lì è null. Tempo di elaborazione e RTF in questo articolo sono ricalcolati da other.yaml per coerenza con la sezione metodologia.

3. Metodologia di valutazione

Riferimento e ipotesi sono file WebVTT. Si estrae testo semplice dalle cue (timestamp e indici rimossi), poi si normalizza (maiuscole/minuscole, punteggiatura e tipografia semplice) prima dello scoring.

Allineamento a livello di parola

Riferimento e ipotesi sono allineati come sequenze di token. Un programma dinamico in stile Levenshtein standard trova un percorso di costo minimo tra le due sequenze di parole; il backtracking produce conteggi di sostituzioni (S), cancellazioni (D) e inserimenti (I) rispetto alla lunghezza di riferimento N.

Word Error Rate (WER) e accuratezza

Siano (S), (D) e (I) i conteggi di sostituzione, cancellazione e inserimento, e (N) il numero di parole di riferimento.

[ \mathrm{WER} = \frac{S + D + I}{N}, \qquad \mathrm{Accuracy} = 1 - \mathrm{WER}. ]

Character Error Rate (CER)

Gli spazi bianchi sono rimossi dalle stringhe normalizzate. La distanza di modifica a caratteri è la distanza di Levenshtein a livello di carattere; il conteggio di caratteri di riferimento è la lunghezza della stringa di riferimento senza spazi.

[ \mathrm{CER} = \frac{\text{Character edit distance}}{\text{Reference character count}}. ]

Real-Time Factor (RTF)

[ \mathrm{RTF} = \frac{\text{Processing time (seconds)}}{\text{Audio duration (seconds)}}. ]

Un RTF inferiore a 1 significa che la decodifica è stata più veloce del tempo reale su questo hardware/esecuzione.

4. Panoramica del modello

Whisper large-v3-turbo appartiene alla famiglia «large» e scambia parte del calcolo per throughput rispetto ai checkpoint large completi (il comportamento esatto dipende da implementazione e hardware). È un ASR multilingue generico adatto a bozze e indicizzazione di ricerca dove non si assume fedeltà perfetta. Questo test riguarda una configurazione da other.yaml; nessuna sweep di temperatura, chunking o VAD.

5. Risultati (da `result.json`)

Valori esatti dall’oggetto metriche precalcolato:

Conteggio parole di riferimento (N): 3442
Sostituzioni (S): 188
Cancellazioni (D): 2192
Inserimenti (I): 0
WER: 0.6914584543869843
Accuratezza: 0.3085415456130157
Conteggio caratteri di riferimento: 15790
Distanza di modifica caratteri: 10494
CER: 0.664597846738442
Durata audio (secondi): 506.88
Tempo di elaborazione STT (nel JSON): null (vedere la sezione 2 per la durata derivata dal YAML)
RTF (nel JSON): null (RTF derivato ≈ 0.151 usando i timestamp YAML)
Runtime script di valutazione: 3.11 s

Arrotondato per la lettura

WER ≈ 69.1%; accuratezza ≈ 30.9%
CER ≈ 66.5%
~10.5k modifiche a carattere su ~15.8k caratteri di riferimento
RTF ≈ 0.15× (più veloce del tempo reale su questo clip, usando il tempo di elaborazione derivato dal YAML)

6. Analisi del pattern di errore

Con I = 0, l’ipotesi non aggiunge parole spurie rispetto a questo allineamento; quasi tutta la massa di errore a livello di parola è cancellazioni e sostituzioni, e le cancellazioni sono di un ordine di grandezza maggiori delle sostituzioni (2192 vs 188).

Interpretazione pratica:

Profili ricchi di cancellazioni spesso indicano segmenti mancanti nell’ipotesi (gestione del silenzio, arresto anticipato, lunghezza del clip diversa, o riferimento più lungo dell’audio effettivamente trascritto).
Zero inserimenti raramente appare in ASR del mondo reale disordinato; insieme a un WER estremo, è un segnale per verificare l’accoppiamento dei dati (stesso file, stessa lingua, stessa edizione del riferimento) prima di attribuire il punteggio solo alla «qualità del modello».

Un CER ~66% è coerente con lunghi tratti di testo che non combaciano tra riferimento e ipotesi — non solo scambi occasionali di parole.

7. Spunti principali

Velocità: Un RTF derivato ≈ 0.15 suggerisce che lo stack ha finito in una frazione del tempo reale per questo clip — utile dove conta la latenza, indipendentemente dal WER grezzo.
Accuratezza: Un WER ~69% non è sufficiente per citazioni pubblicabili o trascrizioni di livello legale senza revisione umana intensiva.
Forma dell’errore: Dominano le cancellazioni; dare priorità all’analisi di copertura e allineamento dei segmenti prima di tarare gli iperparametri di decodifica.
Limiti del campione unico: Un’intervista e una configurazione del modello non definiscono le prestazioni attese in produzione su accenti, codec o rumore.
Riproducibilità: Tenere insieme tutti e quattro gli artefatti preserva un’istantanea congelata.

8. Miglior modello per questo scenario

Solo per questo clip e questo riferimento, Whisper large-v3-turbo è una baseline documentata: i timestamp descrivono il throughput; WER/CER descrivono lo scostamento rispetto al vostro riferimento. Non si sostiene che sia il miglior modello per tutte le interviste in inglese.

9. Verdetto finale neutro

Per bozze di note, ricerca interna o indicizzazione approssimativa dove gli errori sono accettabili e conta la velocità, un RTF basso e una trascrizione archiviata possono restare utilizzabili con disclaimer chiari.

Per citare i partecipanti, flussi sensibili alla conformità o pubblicazione d’archivio, l’accuratezza lessicale ~31% di questa esecuzione e il profilo di errore ricco di cancellazioni implicano che vada prevista revisione umana o una diversa acquisizione/allineamento del riferimento finché i punteggi non migliorano su coppie validate.

Rieseguire lo scorer dopo aver corretto i problemi di dati; la metodologia resta comparabile.

Materiali di origine

Nome cartella del caso: 20260328 (prefisso percorso repository: test-transcripts/20260328/).

Video originale (sorgente audio): Aggiungere l’URL canonico allo stesso video i cui sottotitoli sono stati usati come riferimento (es. link di visione YouTube). L’audio elaborato per l’ASR deve corrispondere a questo caricamento.
Trascrizione di riferimento (VTT): test-transcripts/20260328/ref.vtt — sottotitoli forniti con il video sorgente, salvati come WebVTT per lo scoring.
Trascrizione del modello (VTT): test-transcripts/20260328/model.vtt — output Whisper large-v3-turbo su quell’audio.
Metadati dell’esecuzione: test-transcripts/20260328/other.yaml
Metriche di valutazione precalcolate: test-transcripts/20260328/result.json

La valutazione è stata prodotta con scripts/evaluate-vtt-metrics.js in questo repository. Posizionare i file sopra sotto test-transcripts/20260328/ per riprodurre i numeri citati.

Whisper Large v3 Turbo su un’intervista in inglese — benchmark del 28 marzo 2026 (WER, CER, RTF)

1. Perché questo benchmark conta

2. Configurazione del test

3. Metodologia di valutazione

4. Panoramica del modello

5. Risultati (da `result.json`)

6. Analisi del pattern di errore

7. Spunti principali

8. Miglior modello per questo scenario

9. Verdetto finale neutro

Materiali di origine

Articoli correlati

Whisper Medium su audio YouTube in inglese — Benchmark 2026-03-31 (WER, CER, RTF)

Whisper Medium su audio YouTube in inglese — Benchmark 2026-03-30 (WER, CER, RTF)

Whisper Large v3 Turbo su audio YouTube in inglese — benchmark del 29 marzo 2026 (WER, CER, RTF)

Provalo gratis ora

Whisper Large v3 Turbo su un’intervista in inglese — benchmark del 28 marzo 2026 (WER, CER, RTF)

1. Perché questo benchmark conta

2. Configurazione del test

3. Metodologia di valutazione

4. Panoramica del modello

5. Risultati (da result.json)

6. Analisi del pattern di errore

7. Spunti principali

8. Miglior modello per questo scenario

9. Verdetto finale neutro

Materiali di origine

Articoli correlati

Whisper Medium su audio YouTube in inglese — Benchmark 2026-03-31 (WER, CER, RTF)

Whisper Medium su audio YouTube in inglese — Benchmark 2026-03-30 (WER, CER, RTF)

Whisper Large v3 Turbo su audio YouTube in inglese — benchmark del 29 marzo 2026 (WER, CER, RTF)

Provalo gratis ora

5. Risultati (da `result.json`)