Whisper Large v3 Turbo su audio YouTube in inglese — benchmark del 29 marzo 2026 (WER, CER, RTF)

Whisper Large v3 Turbo su audio YouTube in inglese — benchmark del 29 marzo 2026 (WER, CER, RTF)

2026-03-29Test
Eric King

Eric King

Author


Questa nota documenta un’esecuzione a configurazione fissa su audio in inglese di circa 18 minuti tratto da un caricamento YouTube. Il valutatore riporta WER ≈ 67,6% con predominio di cancellazioni (6 449 vs 60 sostituzioni, 0 inserimenti). Tale profilo suggerisce che la trascrizione ipotesi si allinea male in copertura rispetto al riferimento — spesso quando il riferimento è la traccia di sottotitoli della piattaforma e l’output ASR riflette una segmentazione o una lunghezza diversa — quindi le cifre vanno lette come diagnostiche, non come un “punteggio di accuratezza” rifinito di per sé.
Video e testo di riferimento. Il WebVTT di riferimento (ref.vtt) è il testo dei sottotitoli fornito con il video sorgente (esportato come WebVTT). L’ipotesi (model.vtt) è Whisper large-v3-turbo sullo stesso audio sottostante. Le metriche confrontano quei sottotitoli con questa esecuzione ASR — una baseline pratica per “quanto la nostra pipeline si avvicina a ciò che YouTube distribuisce come sottotitoli”, non un’affermazione su ground truth verificata da umani.

1. Perché questo benchmark conta

Il parlato in stile YouTube è onnipresente nei flussi reali: qualità del microfono variabile, letti musicali, tagli e lunghi monologhi o dialoghi. Valutare l’ASR usando i sottotitoli effettivi della piattaforma come riferimento risponde a una domanda concreta: se eseguiamo la nostra stack basata su Whisper sullo stesso audio, quanto deriva il testo da ciò che gli spettatori vedono già come sottotitoli? È utile per QA dei sottotitoli, riuso dei contenuti e indicizzazione della ricerca — ambiti in cui “abbastanza buono” dipende dal prodotto, ma i numeri devono essere riproducibili.

2. Configurazione del test

I valori sotto provengono da other.yaml e result.json per questo caso (modalità directory così che i metadati YAML siano allegati all’output del valutatore).
FieldValue
SourceYouTube video (audio aligned to that upload)
Date (processing window)2026-03-29 (processtime-atcompleted-at in other.yaml)
LanguageEnglish
Whisper modellarge-v3-turbo
Audio duration (YAML label)17:39
Audio duration (scorer, from VTT)1059.88 s (≈ 17.7 minutes)
STT processing time175 s (sttProcessingTimeSeconds in result.json, from YAML timestamps)
RTF0.165 (from result.json)
Intervallo wall-clock in YAML: 2026-03-29 16:04:372026-03-29 16:07:32 (coerente con 175 s di tempo di elaborazione).

3. Metodologia di valutazione

Riferimento e ipotesi sono file WebVTT. Il testo delle cue viene estratto, poi normalizzato (maiuscole/minuscole, punteggiatura, pulizia leggera) prima dello scoring.
Allineamento a livello di parola
Le sequenze di token sono allineate con un programma dinamico in stile Levenshtein; il backtracking produce sostituzioni (S), cancellazioni (D) e inserimenti (I) rispetto alla lunghezza di riferimento N.
[ \mathrm{WER} = \frac{S + D + I}{N}, \qquad \mathrm{Accuracy} = 1 - \mathrm{WER}. ]
Character Error Rate (CER)
Gli spazi bianchi vengono rimossi; la distanza di edit a livello di carattere è la distanza di Levenshtein sulle singole lettere.
[ \mathrm{CER} = \frac{\text{Character edit distance}}{\text{Reference character count (no spaces)}}. ]
Real-Time Factor (RTF)
[ \mathrm{RTF} = \frac{\text{STT processing time}}{\text{Audio duration}}. ]
RTF inferiore a 1 significa decodifica più veloce del tempo reale in questa esecuzione.

4. Panoramica del modello

Whisper large-v3-turbo punta a alta qualità con throughput migliorato rispetto alle varianti “large” più pesanti (il comportamento dipende da implementazione e hardware). È ASR multilingue general-purpose, adatto a bozze di trascrizione, ricerca e bozze di sottotitoli dove non si assume perfezione letterale. Questo benchmark usa una configurazione di decodifica registrata in other.yaml; non esplora opzioni di decodifica, VAD o post-elaborazione.

5. Risultati (da result.json)

Metriche esatte:
  • Conteggio parole di riferimento (N): 9627
  • Sostituzioni (S): 60
  • Cancellazioni (D): 6449
  • Inserimenti (I): 0
  • WER: 0.6761192479484782
  • Accuracy: 0.3238807520515218
  • Conteggio caratteri di riferimento: 38334
  • Distanza di edit sui caratteri: 25696
  • CER: 0.6703187770647467
  • Durata audio (secondi): 1059.8809999999999
  • Tempo di elaborazione STT (secondi): 175
  • RTF: 0.16511287587946197
  • Runtime script di valutazione (secondi): 25.612
Arrotondato per la lettura
  • WER ≈ 67,6%; accuratezza ≈ 32,4%
  • CER ≈ 67,0%
  • ~25,7k edit su caratteri su ~38,3k caratteri di riferimento
  • RTF ≈ 0,165× (circa più veloce del tempo reale)

6. Analisi del pattern di errori

Le inserzioni sono zero e le cancellazioni sovrastano nettamente le sostituzioni (6449 vs 60). Non è il profilo usuale di “ASR rumoroso con parole di riempimento in più”; indica ampi tratti di testo di riferimento non abbinati dall’ipotesi sotto questo allineamento — coerente con disallineamento di lunghezza, segmentazione diversa o riferimento che copre più contenuto di quanto l’ASR abbia “visto” (es. file di sottotitoli vs segmento audio). CER ≈ 67% rinforza che il divario è ampio, non un pugno di scambi di parole.
Per i team prodotto: non interpretate questo come “Whisper ha sentito male il 68% delle parole” in senso colloquiale finché non confermate la stessa finestra audio, la stessa lingua e normalizzazione del testo comparabile tra export dei sottotitelli e output del modello.

7. Spunti chiave

  • Velocità: RTF ≈ 0,17 è interessante per elaborare in batch clip lunghi.
  • Accuratezza: ~68% WER non è pronto per la pubblicazione senza revisione se servono citazioni fedeli.
  • Forma dell’errore: molte cancellazioni, zero inserzioni — verificate accoppiamento e copertura prima di regolare i parametri del modello.
  • Realismo dello scenario: ~18 minuti di inglese continuo da una fonte YouTube reale è più rappresentativo di clip giocattolo, ma resta un video e un setting del modello.
  • Scelta del riferimento: usare i sottotitoli della piattaforma ancorano il test a una baseline visibile agli spettatori, che può differire da una nuova trascrizione umana.

8. Miglior modello per questo scenario

Nell’ambito ristretto “large-v3-turbo su questa clip, con sottotitoli YouTube come riferimento”, l’esecuzione è una baseline documentata: fissa throughput (RTF) e disallineamento quantitativo (WER/CER) per confronti successivi. Non è l’affermazione che questo sia il miglior modello per tutti i contenuti YouTube in inglese.

9. Verdetto finale neutrale

Per bozze interne, tagging tematico o ricerca approssimativa, un RTF basso può rendere questa stack utilizzabile se gli stakeholder accettano i tassi di errore e validano i passaggi critici.
Per citazioni letterali, conformità o sottotitoli critici per l’accessibilità, ~32% di accuratezza a livello di parola ed errori dominati dalle cancellazioni implicano che revisione umana o correzioni di allineamento restano obbligatorie. Rieseguite il valutatore dopo ogni modifica agli input; la metodologia resta comparabile.

Materiali di origine

Nome cartella del caso {case-name} = 20260329 (mirror sotto test-transcripts/ nel repository quando pubblicate le risorse).
  • Video originale (sorgente audio): https://www.youtube.com/watch?v=E73XCmLAFe8 — i sottotitoli di riferimento sono i sottotitoli forniti con questo video (esportati come ref.vtt).
  • Trascrizione di riferimento (VTT): test-transcripts/{case-name}/ref.vtt
  • Trascrizione del modello (VTT): test-transcripts/{case-name}/model.vtt
  • Metadati dell’esecuzione: test-transcripts/{case-name}/other.yaml
  • Metriche di valutazione precalcolate: test-transcripts/{case-name}/result.json
Lo scoring usa scripts/evaluate-vtt-metrics.js in questo repository. Per trascrizioni lunghe, eseguite Node con heap limit aumentato se necessario (es. NODE_OPTIONS=--max-old-space-size=8192).

Provalo gratis ora

Prova subito il nostro servizio basato su IA per voce, audio e video! Non solo ottieni una trascrizione voce‑testo ad alta precisione, traduzione multilingue e identificazione intelligente dei parlanti, ma puoi anche generare automaticamente sottotitoli per i video, modificare in modo intelligente i contenuti audio‑video ed effettuare analisi sincronizzate di audio e immagine. Copri tutti gli scenari: verbali di riunioni, creazione di video brevi, produzione di podcast e molto altro. Inizia ora la tua prova gratuita!

Suono a Testo OnlineSuono a Testo GratuitoConvertitore Suono in TestoSuono a Testo MP3Suono a Testo WAVSuono a Testo con TimestampVoce in testo per riunioniSound to Text Multi LanguageSuono a Testo SottotitoliConvertire WAV in testoVoce in TestoVoce in Testo OnlineVoce in TestoConvertire MP3 in TestoConvertire registrazione vocale in testoDigitazione Vocale OnlineVoce in Testo con TimestampVoce in Testo in Tempo RealeVoce in Testo per Audio LunghiVoce in Testo per VideoVoce a Testo per YouTubeVoce a Testo per Montaggio VideoVoce a Testo per SottotitoliVoce a Testo per PodcastVoce a Testo per IntervisteAudio Intervista in TestoVoce a Testo per RegistrazioniVoce a Testo per RiunioniVoce a Testo per LezioniVoce a Testo per NoteVoce in Testo MultilingueVoce in Testo PrecisaVoce in Testo VeloceAlternativa Premiere Pro Voce in TestoAlternativa DaVinci Voce in TestoAlternativa VEED Voce in TestoAlternativa InVideo Voce in TestoAlternativa Otter.ai Voce in TestoAlternativa Descript Voce in TestoAlternativa Trint Voce in TestoAlternativa Rev Voce in TestoAlternativa Sonix Voce in TestoAlternativa Happy Scribe Voce in TestoAlternativa Zoom Voce in TestoAlternativa Google Meet Voce in TestoAlternativa Microsoft Teams Voce in TestoAlternativa Fireflies.ai Voce in TestoAlternativa Fathom Voce in TestoAlternativa FlexClip Voce in TestoAlternativa Kapwing Voce in TestoAlternativa Canva Voce in TestoVoce a Testo per Audio LunghiVoce IA in TestoVoce in Testo GratuitoVoce in Testo Senza PubblicitàVoce in Testo per Audio RumorosoVoce in Testo con TempoGenera Sottotitoli da AudioTrascrizione Podcast OnlineTrascrivi Chiamate ClientiVoce TikTok a TestoAudio TikTok a TestoVoce YouTube in TestoAudio YouTube in TestoMemo Vocale in TestoMessaggio Vocale WhatsApp in TestoMessaggio Vocale Telegram in TestoTrascrizione Chiamata DiscordVoce Twitch in TestoVoce Skype in TestoVoce Messenger in TestoMessaggio Vocale LINE in TestoTrascrivi Vlog in TestoConverti Audio Sermone in TestoConverti Parlato in ScritturaTraduci Audio in TestoConverti Note Audio in TestoDigitazione VocaleDigitazione Vocale per RiunioniDigitazione Vocale per YouTubeParla per ScrivereDigitazione Senza ManiVoce in ParoleParlato in ParoleParlato in Testo OnlineOnline Transcription SoftwareParlato in Testo per RiunioniParlato in Testo VeloceReal Time Speech to TextLive Transcription AppParlato in Testo per TikTokSuono in Testo per TikTokParlare in ParoleParlato in TestoTalk to Text FreeTalk to Text OnlineTalk to Text for YouTubeTalk to Text for SubtitlesTalk to Text for Content CreatorsTalk to Text for MeetingsAudio in DigitazioneSuono in TestoStrumento di Scrittura VocaleStrumento di Scrittura VocaleDettatura VocaleStrumento di Trascrizione LegaleStrumento di Dettatura MedicaTrascrizione Audio GiapponeseTrascrizione Riunioni CoreaneStrumento di Trascrizione RiunioniAudio Riunione in TestoConvertitore Lezione a TestoAudio Lezione in TestoTrascrizione Video a TestoGeneratore di Sottotitoli per TikTokTrascrizione Call CenterStrumento Audio Reels a TestoTrascrivere MP3 in TestoTrascrivere file WAV in testoCapCut Voce in TestoCapCut Voce in TestoVoice to Text in EnglishAudio in Testo IngleseVoice to Text in SpanishVoice to Text in FrenchAudio in Testo FranceseVoice to Text in GermanAudio in Testo TedescoVoice to Text in JapaneseAudio in Testo GiapponeseVoice to Text in KoreanAudio in Testo CoreanoVoice to Text in PortugueseVoice to Text in ArabicVoice to Text in ChineseVoice to Text in HindiVoice to Text in RussianWeb Voice Typing ToolVoice Typing Website