
Come funziona la voce in testo: dalle forme d’onda agli spettrogrammi Log-Mel
Eric King
Author
La tecnologia voce-testo è oggi usata per trascrivere riunioni, sottotitolare video, input vocale e assistenti intelligenti. Ma come fa un computer a «capire» il parlato umano senza orecchie?
Si parte dalla rappresentazione audio più familiare — la forma d’onda — fino alla caratteristica centrale dei sistemi ASR moderni: lo spettrogramma Log-Mel.
Forma d’onda: la rappresentazione sonora più nota
Nei software di registrazione o montaggio il suono è spesso mostrato come forma d’onda.
Una forma d’onda mostra:
- il tempo sull’asse orizzontale
- l’ampiezza (volume) sull’asse verticale
Permette di vedere:
- quando c’è parlato
- silenzi o pause
- variazioni di volume
Per il voce-testo, la forma d’onda indica solo quanto è forte il suono, non che suono è.
Perché le forme d’onda non bastano
L’informazione linguistica vera del parlato sta nel contenuto in frequenza, non solo nell’ampiezza.
Fonemi, voci e stili vocali dipendono da come le frequenze si combinano e cambiano nel tempo. Nella forma d’onda questi dettagli sono nascosti in oscillazioni complesse, difficili da interpretare direttamente.
Per questo i sistemi voce-testo trasformano l’audio dal dominio temporale a quello frequenziale.
Dalla forma d’onda allo spettrogramma: visualizzare la frequenza
Per analizzare il parlato, gli ASR generano uno spettrogramma con:
- tempo sull’asse x
- frequenza sull’asse y
- intensità del colore per l’energia
Si vede come i componenti in frequenza evolvono nel tempo, facilitando i pattern del parlato. Gli spettrogrammi grezzi non coincidono però pienamente con la percezione umana.
Spettrogramma Log-Mel: la caratteristica chiave del voce-testo
Entra in gioco lo spettrogramma Log-Mel.
Migliora lo spettrogramma standard:
- mappando le frequenze sulla scala Mel, allineata all’udito umano
- applicando compressione logaritmica per ridurre la sensibilità alle differenze di volume
Il risultato è un’«immagine sonora» bidimensionale che evidenzia:
- strutture fonetiche
- caratteristiche della voce
- andamenti temporali del parlato
Modelli moderni come Whisper usano gli spettrogrammi Log-Mel come input principale.
Perché gli spettrogrammi Log-Mel sono essenziali
Offrono tra l’altro:
- maggiore aderenza all’udito umano
- separazione più chiara dei fonemi
- maggiore robustezza a rumore e variazioni di volume
- migliore idoneità ai modelli di deep learning
Segnano il passo dal rilevare il suono al comprendere il parlato.
Conclusione
Il voce-testo non è solo elaborazione audio: riguarda la struttura del parlato. Le forme d’onda permettono di vedere il suono; gli spettrogrammi Log-Mel permettono alle macchine di interpretarlo.
Il percorso forma d’onda → spettrogramma → Log-Mel è alla base dei sistemi voce-testo accurati e affidabili di oggi.
