🎉 Siamo attivi! Tutti i servizi sono gratuiti durante il nostro periodo di prova—i piani tariffari arriveranno presto.

Ho testato la trascrizione di un’intervista in inglese con l’IA — Risultati del 26 febbraio 2026 (Whisper BASE, ~11 minuti di audio)

Ho testato la trascrizione di un’intervista in inglese con l’IA — Risultati del 26 febbraio 2026 (Whisper BASE, ~11 minuti di audio)

2026-02-26Test
Eric King

Eric King

Author


1. Perché questo benchmark di intervista è importante

Nelle interviste reali, l’accuratezza della trascrizione non è un optional: è fondamentale. Determina se puoi citare gli ospiti in modo affidabile, cercare i temi chiave e costruire analisi successive senza distorcere ciò che è stato detto. Un aggettivo saltato, un numero frainteso o un nome proprio storpiato possono cambiare il senso di una risposta.
In questo benchmark ho preso un estratto di intervista in inglese con “Bill”, l’ho fatto passare in una pipeline di trascrizione basata su Whisper e l’ho valutato con metriche ASR standard. L’obiettivo non è fare marketing, ma offrire un istantanea concreta e riproducibile del comportamento del sistema su un’intervista reale di lunghezza moderata.
L’audio originale dell’intervista proviene da un video YouTube che puoi consultare come contesto:
Video originale dell’intervista su YouTube.

Source Materials

Tutti gli input utilizzati in questo benchmark sono presenti nel repository o come risorse statiche e possono essere ispezionati direttamente:
Questi file sono le uniche fonti utilizzate per ricavare i numeri e le conclusioni del post.

Screenshots from this run

Dashboard di trascrizione SayToWords — panoramica delle metriche
Dashboard di trascrizione SayToWords — vista della trascrizione

2. Configurazione del test (Testing Setup)

Per questa esecuzione ho utilizzato la seguente configurazione (tutti i valori provengono dalle metainformazioni pre‑calcolate e da result.json):
  • Data del test: 26‑02‑2026 (derivata dai timestamp di elaborazione)
  • Scenario: intervista in inglese (test-transcripts/bill-interview)
  • Lingua: inglese
  • Durata audio:
    • audioDurationSeconds = 653.2934375
    • 10,89 minuti di materiale
  • Tempo di elaborazione:
    • sttProcessingTimeSeconds = 85.476
    • 1,42 minuti di decodifica end‑to‑end
  • Modello / modalità:
    • whisper-model: BASE
    • saytowords-mode: base
Le condizioni di registrazione, il tipo di microfono e la densità del parlato non sono documentate nelle metainformazioni, quindi non vengono ipotizzate né interpretate. Tutto l’allineamento e lo scoring sono stati eseguiti prima della redazione di questo rapporto; i valori riportati di seguito sono letti direttamente da test-transcripts/bill-interview/result.json.

3. Metodologia di valutazione (Evaluation Methodology)

La trascrizione umana di riferimento (ref.vtt) e l’output del modello (model.vtt) sono memorizzati in formato WebVTT. La pipeline di valutazione estrae innanzitutto il testo grezzo, quindi allinea riferimento e ipotesi e infine calcola le metriche di errore.
Word Error Rate (WER)
Dopo la tokenizzazione in sequenze di parole, contiamo:
  • (S): sostituzioni
  • (D): cancellazioni (deletions)
  • (I): inserimenti
  • (N): numero totale di parole di riferimento
La Word Error Rate è definita come:
[ \text{WER} = \frac{S + D + I}{N} ]
Da qui la precisione a livello parola (Accuracy):
[ \text{Accuracy} = 1 - \text{WER} ]
Character Error Rate (CER)
A livello di carattere, gli spazi vengono rimossi e si calcola una distanza di editing di tipo Levenshtein:
  • Distanza di editing sui caratteri: somma di inserimenti, cancellazioni e sostituzioni
  • Totale caratteri: numero di caratteri di riferimento (senza spazi)
[ \text{CER} = \frac{\text{Character edit distance}}{\text{Total characters}} ]
Real‑Time Factor (RTF)
Il throughput viene misurato tramite il Real‑Time Factor:
[ \text{RTF} = \frac{\text{Processing Time}}{\text{Audio Duration}} ]
Qui il tempo di elaborazione deriva dalla differenza tra processtime-at e completed-at in other.yaml, mentre la durata audio viene letta da audio-duration nello stesso file.
Note di implementazione
  • Tutte le metriche si basano su un allineamento tra trascrizione di riferimento e ipotesi.
  • Le distanze di editing (a livello di parola e di carattere) usano un’implementazione Levenshtein ad alte prestazioni.
  • Il motore di allineamento gira su un backend ottimizzato in C++.
  • La complessità temporale è dell’ordine di O(nm) per sequenze di lunghezze (n) e (m).
  • Tutti i valori in result.json sono deterministici e riproducibili: stesse entrate ⇒ stessi risultati.

4. Panoramica del modello (Model Overview)

In questo benchmark è stata valutata una sola configurazione di modello:
  • Whisper BASE (saytowords-mode: base)
    Un modello di speech‑to‑text generico, a capacità media, progettato per l’inglese multi‑accento e audio di lunga durata. In questo benchmark viene usato “out of the box” (senza fine‑tuning e senza revisione manuale) per osservare il comportamento grezzo in un’intervista reale.
In futuro si potrebbero aggiungere varianti Whisper più piccole o più grandi e sistemi non basati su Whisper, ma questo articolo si concentra sulla caratterizzazione di questa singola baseline.

5. Risultati (da result.json)

I valori seguenti sono presi direttamente da test-transcripts/bill-interview/result.json:
  • Durata audio (s): 653.2934375
  • Tempo di elaborazione (s): 85.476
  • Parole di riferimento (N): 1846
  • Sostituzioni (S): 67
  • Cancellazioni (D): 178
  • Inserimenti (I): 23
  • WER: 0.14517876489707476
  • Accuracy: 0.8548212351029252
  • Caratteri di riferimento: 7335
  • Distanza di editing sui caratteri: 825
  • CER: 0.11247443762781185
  • RTF: 0.13083860191079907
Per una lettura più immediata:
  • WER ≈ 14,52 %
  • Accuracy ≈ 85,48 %
  • CER ≈ 11,25 %
  • RTF ≈ 0,13, cioè circa 7,6× più veloce del tempo reale.

6. Analisi del pattern di errore (Error Pattern Analysis)

Non sono disponibili marcatori di errore per segmento né visualizzazioni dedicate; l’analisi si basa esclusivamente sui conteggi aggregati.
  • Tipo di errore dominante: cancellazioni (deletions)
    • Cancellazioni: D = 178
    • Sostituzioni: S = 67
    • Inserimenti: I = 23
      Le cancellazioni rappresentano la maggior parte degli errori a livello di parola. Ciò indica che il modello tende più spesso a omettere parole che a inventare contenuti. Nel contesto di un’intervista, questo si traduce tipicamente in parole funzionali mancanti, finali di frase troncati nel parlato veloce o porzioni sovrapposte di parlato che vengono “risolte” con omissioni.
  • Le sostituzioni esistono, ma sono secondarie
    Con S = 67, le sostituzioni rappresentano circa un quarto di tutti gli errori. Di solito si tratta di confusioni lessicali: parole dal suono simile, nomi propri riconosciuti male o termini di dominio poco frequenti per il modello.
  • Gli inserimenti sono relativamente rari
    Si osservano solo I = 23 inserimenti. Questo è coerente con un modello conservativo rispetto alle allucinazioni di contenuto: sbaglia più spesso per omissione che per aggiunta.
A livello di carattere:
  • Distanza di editing sui caratteri = 825 su 7335 caratteri, che dà CER ≈ 11,25 %.
    Rispetto a una WER di ~14,5 %, questa CER più bassa suggerisce che molte parole errate rimangono vicine alla referenza a livello di caratteri — per esempio piccole variazioni morfologiche, errori ortografici minori o parole composte spezzate/unite in modo diverso.
In assenza di marcatori di errore agganciati ai timestamp, non è possibile indicare «il minuto esatto in cui il modello sbaglia». Tuttavia, la scomposizione S/D/I fornisce già un profilo chiaro: il sistema tende a sotto‑trascrivere (under‑transcribe) più che a inventare frasi che non esistono.

7. Insight principali (Key Insights)

Guardando solo i numeri, si possono evidenziare alcuni punti chiave:
  1. Buon compromesso tra velocità e accuratezza per le interviste
    Con RTF ≈ 0,13, il sistema elabora ~10,9 minuti di audio in ~1,4 minuti, mantenendo WER ≈ 14,5 % e CER ≈ 11,3 %. Per l’elaborazione in batch di molte interviste, questo punto di lavoro è pratico.
  2. Profilo di errore nettamente dominato dalle cancellazioni
    Le cancellazioni (178) dominano sulle sostituzioni (67) e sugli inserimenti (23). In pratica significa che è più probabile perdere piccoli pezzi di contenuto che vedere il modello inventare intere frasi.
  3. Maggiore stabilità a livello di carattere rispetto al livello di parola
    Il fatto che la CER sia inferiore alla WER indica che molte parole errate restano vicine alla referenza a livello di caratteri. Questo è positivo per compiti come ricerca testuale o clustering tematico, che tollerano piccole variazioni lessicali.
  4. Volume di parlato non banale
    Con 1846 parole di riferimento e 7335 caratteri, questo scenario è molto più vicino a un’intervista reale che a un esempio giocattolo. Le metriche descrivono il comportamento del modello su diversi minuti di parlato spontaneo.

8. Miglior modello per questo scenario (Best Model for This Scenario)

In questo benchmark è stato testato solo Whisper BASE (modalità base), che è quindi allo stesso tempo:
  • il modello più forte del «pannello», e
  • l’unico punto di riferimento.
In questo contesto, offre:
  • WER ≈ 14,5 %, Accuracy ≈ 85,5 % su ~11 minuti di audio d’intervista.
  • RTF ≈ 0,13, cioè 7–8× più veloce del tempo reale.
Per flussi di lavoro che richiedono trascrizioni di interviste rapide e ragionevolmente accurate — per navigazione, ricerca o citazioni approssimative — questa configurazione è numericamente adeguata. Per casi d’uso in cui ogni parola deve essere perfetta, le metriche indicano chiaramente che serve ancora revisione umana o un modello più potente.

9. Verdettto finale neutro (Neutral Final Verdict)

Su questa specifica intervista in inglese del 26 febbraio 2026, Whisper BASE in modalità “base” mostra:
  • un profilo di errore dominato dalle cancellazioni, con poche inserzioni,
  • una WER intorno alla fascia medio‑bassa dei dieci e qualcosa percento e una CER nella fascia bassa dei dieci e qualcosa percento, supportate da una trascrizione di riferimento non banale,
  • un Real‑Time Factor intorno a 0,13, adatto all’elaborazione batch su larga scala.
Il comportamento è numericamente coerente, riproducibile e sufficientemente veloce per fungere da infrastruttura di benchmark quotidiano. Per un valutatore indipendente, il messaggio è chiaro: questa configurazione è una baseline utilizzabile per la trascrizione di interviste, ma non sostituisce ancora la revisione umana in contesti altamente sensibili.

Artefatti di riferimento (Reference Artifacts)

Di seguito sono riportate strutture comprimibili per la trascrizione di riferimento e quella del modello; è possibile incollarvi il contenuto completo dei file VTT quando necessario.
ref.vtt (trascrizione di riferimento)
<!-- Incolla qui il contenuto completo di test-transcripts/bill-interview/ref.vtt -->
model.vtt (trascrizione del modello)
<!-- Incolla qui il contenuto completo di test-transcripts/bill-interview/model.vtt -->

Provalo gratis ora

Prova subito il nostro servizio basato su IA per voce, audio e video! Non solo ottieni una trascrizione voce‑testo ad alta precisione, traduzione multilingue e identificazione intelligente dei parlanti, ma puoi anche generare automaticamente sottotitoli per i video, modificare in modo intelligente i contenuti audio‑video ed effettuare analisi sincronizzate di audio e immagine. Copri tutti gli scenari: verbali di riunioni, creazione di video brevi, produzione di podcast e molto altro. Inizia ora la tua prova gratuita!

Convertire MP3 in TestoConvertire registrazione vocale in testoDigitazione Vocale OnlineVoce in Testo con TimestampVoce in Testo in Tempo RealeVoce in Testo per Audio LunghiVoce in Testo per VideoVoce a Testo per YouTubeVoce a Testo per Montaggio VideoVoce a Testo per SottotitoliVoce a Testo per PodcastVoce a Testo per IntervisteAudio Intervista in TestoVoce a Testo per RegistrazioniVoce a Testo per RiunioniVoce a Testo per LezioniVoce a Testo per NoteVoce in Testo MultilingueVoce in Testo PrecisaVoce in Testo VeloceAlternativa Premiere Pro Voce in TestoAlternativa DaVinci Voce in TestoAlternativa VEED Voce in TestoAlternativa InVideo Voce in TestoAlternativa Otter.ai Voce in TestoAlternativa Descript Voce in TestoAlternativa Trint Voce in TestoAlternativa Rev Voce in TestoAlternativa Sonix Voce in TestoAlternativa Happy Scribe Voce in TestoAlternativa Zoom Voce in TestoAlternativa Google Meet Voce in TestoAlternativa Microsoft Teams Voce in TestoAlternativa Fireflies.ai Voce in TestoAlternativa Fathom Voce in TestoAlternativa FlexClip Voce in TestoAlternativa Kapwing Voce in TestoAlternativa Canva Voce in TestoVoce a Testo per Audio LunghiVoce IA in TestoVoce in Testo GratuitoVoce in Testo Senza PubblicitàVoce in Testo per Audio RumorosoVoce in Testo con TempoGenera Sottotitoli da AudioTrascrizione Podcast OnlineTrascrivi Chiamate ClientiVoce TikTok a TestoAudio TikTok a TestoVoce YouTube in TestoAudio YouTube in TestoMemo Vocale in TestoMessaggio Vocale WhatsApp in TestoMessaggio Vocale Telegram in TestoTrascrizione Chiamata DiscordVoce Twitch in TestoVoce Skype in TestoVoce Messenger in TestoMessaggio Vocale LINE in TestoTrascrivi Vlog in TestoConverti Audio Sermone in TestoConverti Parlato in ScritturaTraduci Audio in TestoConverti Note Audio in TestoDigitazione VocaleDigitazione Vocale per RiunioniDigitazione Vocale per YouTubeParla per ScrivereDigitazione Senza ManiVoce in ParoleParlato in ParoleParlato in Testo OnlineOnline Transcription SoftwareParlato in Testo per RiunioniParlato in Testo VeloceReal Time Speech to TextLive Transcription AppParlato in Testo per TikTokSuono in Testo per TikTokParlare in ParoleParlato in TestoTalk to Text FreeTalk to Text OnlineTalk to Text for YouTubeTalk to Text for SubtitlesTalk to Text for Content CreatorsTalk to Text for MeetingsAudio in DigitazioneSuono in TestoStrumento di Scrittura VocaleStrumento di Scrittura VocaleDettatura VocaleStrumento di Trascrizione LegaleStrumento di Dettatura MedicaTrascrizione Audio GiapponeseTrascrizione Riunioni CoreaneStrumento di Trascrizione RiunioniAudio Riunione in TestoConvertitore Lezione a TestoAudio Lezione in TestoTrascrizione Video a TestoGeneratore di Sottotitoli per TikTokTrascrizione Call CenterStrumento Audio Reels a TestoTrascrivere MP3 in TestoTrascrivere file WAV in testoCapCut Voce in TestoCapCut Voce in TestoVoice to Text in EnglishAudio in Testo IngleseVoice to Text in SpanishVoice to Text in FrenchAudio in Testo FranceseVoice to Text in GermanAudio in Testo TedescoVoice to Text in JapaneseAudio in Testo GiapponeseVoice to Text in KoreanAudio in Testo CoreanoVoice to Text in PortugueseVoice to Text in ArabicVoice to Text in ChineseVoice to Text in HindiVoice to Text in RussianWeb Voice Typing ToolVoice Typing Website