Whisper Large v3 Turbo su audio YouTube in inglese — benchmark del 29 marzo 2026 (WER, CER, RTF)

Questa nota documenta un’esecuzione a configurazione fissa su audio in inglese di circa 18 minuti tratto da un caricamento YouTube. Il valutatore riporta WER ≈ 67,6% con predominio di cancellazioni (6 449 vs 60 sostituzioni, 0 inserimenti). Tale profilo suggerisce che la trascrizione ipotesi si allinea male in copertura rispetto al riferimento — spesso quando il riferimento è la traccia di sottotitoli della piattaforma e l’output ASR riflette una segmentazione o una lunghezza diversa — quindi le cifre vanno lette come diagnostiche, non come un “punteggio di accuratezza” rifinito di per sé.

Video e testo di riferimento. Il WebVTT di riferimento (ref.vtt) è il testo dei sottotitoli fornito con il video sorgente (esportato come WebVTT). L’ipotesi (model.vtt) è Whisper large-v3-turbo sullo stesso audio sottostante. Le metriche confrontano quei sottotitoli con questa esecuzione ASR — una baseline pratica per “quanto la nostra pipeline si avvicina a ciò che YouTube distribuisce come sottotitoli”, non un’affermazione su ground truth verificata da umani.

1. Perché questo benchmark conta

Il parlato in stile YouTube è onnipresente nei flussi reali: qualità del microfono variabile, letti musicali, tagli e lunghi monologhi o dialoghi. Valutare l’ASR usando i sottotitoli effettivi della piattaforma come riferimento risponde a una domanda concreta: se eseguiamo la nostra stack basata su Whisper sullo stesso audio, quanto deriva il testo da ciò che gli spettatori vedono già come sottotitoli? È utile per QA dei sottotitoli, riuso dei contenuti e indicizzazione della ricerca — ambiti in cui “abbastanza buono” dipende dal prodotto, ma i numeri devono essere riproducibili.

2. Configurazione del test

I valori sotto provengono da other.yaml e result.json per questo caso (modalità directory così che i metadati YAML siano allegati all’output del valutatore).

Field	Value
Source	YouTube video (audio aligned to that upload)
Date (processing window)	2026-03-29 (`processtime-at` → `completed-at` in `other.yaml`)
Language	English
Whisper model	large-v3-turbo
Audio duration (YAML label)	17:39
Audio duration (scorer, from VTT)	1059.88 s (≈ 17.7 minutes)
STT processing time	175 s (`sttProcessingTimeSeconds` in `result.json`, from YAML timestamps)
RTF	0.165 (from `result.json`)

Intervallo wall-clock in YAML: 2026-03-29 16:04:37 → 2026-03-29 16:07:32 (coerente con 175 s di tempo di elaborazione).

3. Metodologia di valutazione

Riferimento e ipotesi sono file WebVTT. Il testo delle cue viene estratto, poi normalizzato (maiuscole/minuscole, punteggiatura, pulizia leggera) prima dello scoring.

Allineamento a livello di parola

Le sequenze di token sono allineate con un programma dinamico in stile Levenshtein; il backtracking produce sostituzioni (S), cancellazioni (D) e inserimenti (I) rispetto alla lunghezza di riferimento N.

[ \mathrm{WER} = \frac{S + D + I}{N}, \qquad \mathrm{Accuracy} = 1 - \mathrm{WER}. ]

Character Error Rate (CER)

Gli spazi bianchi vengono rimossi; la distanza di edit a livello di carattere è la distanza di Levenshtein sulle singole lettere.

[ \mathrm{CER} = \frac{\text{Character edit distance}}{\text{Reference character count (no spaces)}}. ]

Real-Time Factor (RTF)

[ \mathrm{RTF} = \frac{\text{STT processing time}}{\text{Audio duration}}. ]

RTF inferiore a 1 significa decodifica più veloce del tempo reale in questa esecuzione.

4. Panoramica del modello

Whisper large-v3-turbo punta a alta qualità con throughput migliorato rispetto alle varianti “large” più pesanti (il comportamento dipende da implementazione e hardware). È ASR multilingue general-purpose, adatto a bozze di trascrizione, ricerca e bozze di sottotitoli dove non si assume perfezione letterale. Questo benchmark usa una configurazione di decodifica registrata in other.yaml; non esplora opzioni di decodifica, VAD o post-elaborazione.

5. Risultati (da `result.json`)

Metriche esatte:

Conteggio parole di riferimento (N): 9627
Sostituzioni (S): 60
Cancellazioni (D): 6449
Inserimenti (I): 0
WER: 0.6761192479484782
Accuracy: 0.3238807520515218
Conteggio caratteri di riferimento: 38334
Distanza di edit sui caratteri: 25696
CER: 0.6703187770647467
Durata audio (secondi): 1059.8809999999999
Tempo di elaborazione STT (secondi): 175
RTF: 0.16511287587946197
Runtime script di valutazione (secondi): 25.612

Arrotondato per la lettura

WER ≈ 67,6%; accuratezza ≈ 32,4%
CER ≈ 67,0%
~25,7k edit su caratteri su ~38,3k caratteri di riferimento
RTF ≈ 0,165× (circa 6× più veloce del tempo reale)

6. Analisi del pattern di errori

Le inserzioni sono zero e le cancellazioni sovrastano nettamente le sostituzioni (6449 vs 60). Non è il profilo usuale di “ASR rumoroso con parole di riempimento in più”; indica ampi tratti di testo di riferimento non abbinati dall’ipotesi sotto questo allineamento — coerente con disallineamento di lunghezza, segmentazione diversa o riferimento che copre più contenuto di quanto l’ASR abbia “visto” (es. file di sottotitoli vs segmento audio). CER ≈ 67% rinforza che il divario è ampio, non un pugno di scambi di parole.

Per i team prodotto: non interpretate questo come “Whisper ha sentito male il 68% delle parole” in senso colloquiale finché non confermate la stessa finestra audio, la stessa lingua e normalizzazione del testo comparabile tra export dei sottotitelli e output del modello.

7. Spunti chiave

Velocità: RTF ≈ 0,17 è interessante per elaborare in batch clip lunghi.
Accuratezza: ~68% WER non è pronto per la pubblicazione senza revisione se servono citazioni fedeli.
Forma dell’errore: molte cancellazioni, zero inserzioni — verificate accoppiamento e copertura prima di regolare i parametri del modello.
Realismo dello scenario: ~18 minuti di inglese continuo da una fonte YouTube reale è più rappresentativo di clip giocattolo, ma resta un video e un setting del modello.
Scelta del riferimento: usare i sottotitoli della piattaforma ancorano il test a una baseline visibile agli spettatori, che può differire da una nuova trascrizione umana.

8. Miglior modello per questo scenario

Nell’ambito ristretto “large-v3-turbo su questa clip, con sottotitoli YouTube come riferimento”, l’esecuzione è una baseline documentata: fissa throughput (RTF) e disallineamento quantitativo (WER/CER) per confronti successivi. Non è l’affermazione che questo sia il miglior modello per tutti i contenuti YouTube in inglese.

9. Verdetto finale neutrale

Per bozze interne, tagging tematico o ricerca approssimativa, un RTF basso può rendere questa stack utilizzabile se gli stakeholder accettano i tassi di errore e validano i passaggi critici.

Per citazioni letterali, conformità o sottotitoli critici per l’accessibilità, ~32% di accuratezza a livello di parola ed errori dominati dalle cancellazioni implicano che revisione umana o correzioni di allineamento restano obbligatorie. Rieseguite il valutatore dopo ogni modifica agli input; la metodologia resta comparabile.

Materiali di origine

Nome cartella del caso {case-name} = 20260329 (mirror sotto test-transcripts/ nel repository quando pubblicate le risorse).

Video originale (sorgente audio): https://www.youtube.com/watch?v=E73XCmLAFe8 — i sottotitoli di riferimento sono i sottotitoli forniti con questo video (esportati come ref.vtt).
Trascrizione di riferimento (VTT): test-transcripts/{case-name}/ref.vtt
Trascrizione del modello (VTT): test-transcripts/{case-name}/model.vtt
Metadati dell’esecuzione: test-transcripts/{case-name}/other.yaml
Metriche di valutazione precalcolate: test-transcripts/{case-name}/result.json

Lo scoring usa scripts/evaluate-vtt-metrics.js in questo repository. Per trascrizioni lunghe, eseguite Node con heap limit aumentato se necessario (es. NODE_OPTIONS=--max-old-space-size=8192).

Whisper Large v3 Turbo su audio YouTube in inglese — benchmark del 29 marzo 2026 (WER, CER, RTF)

1. Perché questo benchmark conta

2. Configurazione del test

3. Metodologia di valutazione

4. Panoramica del modello

5. Risultati (da `result.json`)

6. Analisi del pattern di errori

7. Spunti chiave

8. Miglior modello per questo scenario

9. Verdetto finale neutrale

Materiali di origine

Articoli correlati

Whisper Medium su audio YouTube in inglese — Benchmark 2026-03-31 (WER, CER, RTF)

Whisper Medium su audio YouTube in inglese — Benchmark 2026-03-30 (WER, CER, RTF)

Whisper Large v3 Turbo su un’intervista in inglese — benchmark del 28 marzo 2026 (WER, CER, RTF)

Provalo gratis ora

Whisper Large v3 Turbo su audio YouTube in inglese — benchmark del 29 marzo 2026 (WER, CER, RTF)

1. Perché questo benchmark conta

2. Configurazione del test

3. Metodologia di valutazione

4. Panoramica del modello

5. Risultati (da result.json)

6. Analisi del pattern di errori

7. Spunti chiave

8. Miglior modello per questo scenario

9. Verdetto finale neutrale

Materiali di origine

Articoli correlati

Whisper Medium su audio YouTube in inglese — Benchmark 2026-03-31 (WER, CER, RTF)

Whisper Medium su audio YouTube in inglese — Benchmark 2026-03-30 (WER, CER, RTF)

Whisper Large v3 Turbo su un’intervista in inglese — benchmark del 28 marzo 2026 (WER, CER, RTF)

Provalo gratis ora

5. Risultati (da `result.json`)