
Whisper Large v3 Turbo su audio YouTube in inglese — benchmark del 29 marzo 2026 (WER, CER, RTF)
2026-03-29Test
Eric King
Author
Questa nota documenta un’esecuzione a configurazione fissa su audio in inglese di circa 18 minuti tratto da un caricamento YouTube. Il valutatore riporta WER ≈ 67,6% con predominio di cancellazioni (6 449 vs 60 sostituzioni, 0 inserimenti). Tale profilo suggerisce che la trascrizione ipotesi si allinea male in copertura rispetto al riferimento — spesso quando il riferimento è la traccia di sottotitoli della piattaforma e l’output ASR riflette una segmentazione o una lunghezza diversa — quindi le cifre vanno lette come diagnostiche, non come un “punteggio di accuratezza” rifinito di per sé.
Video e testo di riferimento. Il WebVTT di riferimento (
ref.vtt) è il testo dei sottotitoli fornito con il video sorgente (esportato come WebVTT). L’ipotesi (model.vtt) è Whisper large-v3-turbo sullo stesso audio sottostante. Le metriche confrontano quei sottotitoli con questa esecuzione ASR — una baseline pratica per “quanto la nostra pipeline si avvicina a ciò che YouTube distribuisce come sottotitoli”, non un’affermazione su ground truth verificata da umani.1. Perché questo benchmark conta
Il parlato in stile YouTube è onnipresente nei flussi reali: qualità del microfono variabile, letti musicali, tagli e lunghi monologhi o dialoghi. Valutare l’ASR usando i sottotitoli effettivi della piattaforma come riferimento risponde a una domanda concreta: se eseguiamo la nostra stack basata su Whisper sullo stesso audio, quanto deriva il testo da ciò che gli spettatori vedono già come sottotitoli? È utile per QA dei sottotitoli, riuso dei contenuti e indicizzazione della ricerca — ambiti in cui “abbastanza buono” dipende dal prodotto, ma i numeri devono essere riproducibili.
2. Configurazione del test
I valori sotto provengono da
other.yaml e result.json per questo caso (modalità directory così che i metadati YAML siano allegati all’output del valutatore).| Field | Value |
|---|---|
| Source | YouTube video (audio aligned to that upload) |
| Date (processing window) | 2026-03-29 (processtime-at → completed-at in other.yaml) |
| Language | English |
| Whisper model | large-v3-turbo |
| Audio duration (YAML label) | 17:39 |
| Audio duration (scorer, from VTT) | 1059.88 s (≈ 17.7 minutes) |
| STT processing time | 175 s (sttProcessingTimeSeconds in result.json, from YAML timestamps) |
| RTF | 0.165 (from result.json) |
Intervallo wall-clock in YAML: 2026-03-29 16:04:37 → 2026-03-29 16:07:32 (coerente con 175 s di tempo di elaborazione).
3. Metodologia di valutazione
Riferimento e ipotesi sono file WebVTT. Il testo delle cue viene estratto, poi normalizzato (maiuscole/minuscole, punteggiatura, pulizia leggera) prima dello scoring.
Allineamento a livello di parola
Le sequenze di token sono allineate con un programma dinamico in stile Levenshtein; il backtracking produce sostituzioni (S), cancellazioni (D) e inserimenti (I) rispetto alla lunghezza di riferimento N.
[
\mathrm{WER} = \frac{S + D + I}{N}, \qquad \mathrm{Accuracy} = 1 - \mathrm{WER}.
]
Character Error Rate (CER)
Gli spazi bianchi vengono rimossi; la distanza di edit a livello di carattere è la distanza di Levenshtein sulle singole lettere.
[
\mathrm{CER} = \frac{\text{Character edit distance}}{\text{Reference character count (no spaces)}}.
]
Real-Time Factor (RTF)
[
\mathrm{RTF} = \frac{\text{STT processing time}}{\text{Audio duration}}.
]
RTF inferiore a 1 significa decodifica più veloce del tempo reale in questa esecuzione.
4. Panoramica del modello
Whisper large-v3-turbo punta a alta qualità con throughput migliorato rispetto alle varianti “large” più pesanti (il comportamento dipende da implementazione e hardware). È ASR multilingue general-purpose, adatto a bozze di trascrizione, ricerca e bozze di sottotitoli dove non si assume perfezione letterale. Questo benchmark usa una configurazione di decodifica registrata in
other.yaml; non esplora opzioni di decodifica, VAD o post-elaborazione.5. Risultati (da result.json)
Metriche esatte:
- Conteggio parole di riferimento (N): 9627
- Sostituzioni (S): 60
- Cancellazioni (D): 6449
- Inserimenti (I): 0
- WER: 0.6761192479484782
- Accuracy: 0.3238807520515218
- Conteggio caratteri di riferimento: 38334
- Distanza di edit sui caratteri: 25696
- CER: 0.6703187770647467
- Durata audio (secondi): 1059.8809999999999
- Tempo di elaborazione STT (secondi): 175
- RTF: 0.16511287587946197
- Runtime script di valutazione (secondi): 25.612
Arrotondato per la lettura
- WER ≈ 67,6%; accuratezza ≈ 32,4%
- CER ≈ 67,0%
- ~25,7k edit su caratteri su ~38,3k caratteri di riferimento
- RTF ≈ 0,165× (circa 6× più veloce del tempo reale)
6. Analisi del pattern di errori
Le inserzioni sono zero e le cancellazioni sovrastano nettamente le sostituzioni (6449 vs 60). Non è il profilo usuale di “ASR rumoroso con parole di riempimento in più”; indica ampi tratti di testo di riferimento non abbinati dall’ipotesi sotto questo allineamento — coerente con disallineamento di lunghezza, segmentazione diversa o riferimento che copre più contenuto di quanto l’ASR abbia “visto” (es. file di sottotitoli vs segmento audio). CER ≈ 67% rinforza che il divario è ampio, non un pugno di scambi di parole.
Per i team prodotto: non interpretate questo come “Whisper ha sentito male il 68% delle parole” in senso colloquiale finché non confermate la stessa finestra audio, la stessa lingua e normalizzazione del testo comparabile tra export dei sottotitelli e output del modello.
7. Spunti chiave
- Velocità: RTF ≈ 0,17 è interessante per elaborare in batch clip lunghi.
- Accuratezza: ~68% WER non è pronto per la pubblicazione senza revisione se servono citazioni fedeli.
- Forma dell’errore: molte cancellazioni, zero inserzioni — verificate accoppiamento e copertura prima di regolare i parametri del modello.
- Realismo dello scenario: ~18 minuti di inglese continuo da una fonte YouTube reale è più rappresentativo di clip giocattolo, ma resta un video e un setting del modello.
- Scelta del riferimento: usare i sottotitoli della piattaforma ancorano il test a una baseline visibile agli spettatori, che può differire da una nuova trascrizione umana.
8. Miglior modello per questo scenario
Nell’ambito ristretto “large-v3-turbo su questa clip, con sottotitoli YouTube come riferimento”, l’esecuzione è una baseline documentata: fissa throughput (RTF) e disallineamento quantitativo (WER/CER) per confronti successivi. Non è l’affermazione che questo sia il miglior modello per tutti i contenuti YouTube in inglese.
9. Verdetto finale neutrale
Per bozze interne, tagging tematico o ricerca approssimativa, un RTF basso può rendere questa stack utilizzabile se gli stakeholder accettano i tassi di errore e validano i passaggi critici.
Per citazioni letterali, conformità o sottotitoli critici per l’accessibilità, ~32% di accuratezza a livello di parola ed errori dominati dalle cancellazioni implicano che revisione umana o correzioni di allineamento restano obbligatorie. Rieseguite il valutatore dopo ogni modifica agli input; la metodologia resta comparabile.
Materiali di origine
Nome cartella del caso
{case-name} = 20260329 (mirror sotto test-transcripts/ nel repository quando pubblicate le risorse).- Video originale (sorgente audio): https://www.youtube.com/watch?v=E73XCmLAFe8 — i sottotitoli di riferimento sono i sottotitoli forniti con questo video (esportati come
ref.vtt). - Trascrizione di riferimento (VTT):
test-transcripts/{case-name}/ref.vtt - Trascrizione del modello (VTT):
test-transcripts/{case-name}/model.vtt - Metadati dell’esecuzione:
test-transcripts/{case-name}/other.yaml - Metriche di valutazione precalcolate:
test-transcripts/{case-name}/result.json
Lo scoring usa
scripts/evaluate-vtt-metrics.js in questo repository. Per trascrizioni lunghe, eseguite Node con heap limit aumentato se necessario (es. NODE_OPTIONS=--max-old-space-size=8192).