
Como funciona a conversão de fala em texto: das formas de onda aos espectrogramas Log-Mel
Eric King
Author
A tecnologia de fala para texto é hoje usada em transcrição de reuniões, legendas de vídeo, entrada por voz e assistentes inteligentes. Mas como é que um computador «compreende» a fala humana sem ouvidos?
Começamos pela representação de áudio mais familiar — a forma de onda — e avançamos até à característica central dos sistemas ASR modernos: o espectrograma Log-Mel.
Forma de onda: a representação sonora mais conhecida
Em ferramentas de gravação ou edição, o som costuma aparecer como forma de onda.
Uma forma de onda mostra:
- Tempo no eixo horizontal
- Amplitude (volume) no eixo vertical
Permite ver:
- Quando há fala
- Silêncios ou pausas
- Alterações de volume
Para fala para texto, a forma de onda só indica quão alto é o som, não que som é.
Porque as formas de onda não chegam
A informação linguística real da fala está no conteúdo em frequência, não só na amplitude.
Fonemas, vozes e estilos de fala definem-se pela forma como as frequências se combinam e evoluem. Na forma de onda, esses pormenores estão escondidos em oscilações complexas, difíceis de interpretar diretamente.
Por isso os sistemas de fala para texto convertem o áudio do domínio temporal para o domínio da frequência.
Da forma de onda ao espectrograma: visualizar a frequência
Para analisar a fala, os ASR geram um espectrograma com:
- Tempo no eixo x
- Frequência no eixo y
- Intensidade da cor para a energia
Assim vê-se como os componentes de frequência mudam ao longo do tempo, facilitando padrões de fala. Espectrogramas em bruto não correspondem totalmente à perceção humana.
Espectrograma Log-Mel: a característica central da fala para texto
Aqui entra o espectrograma Log-Mel.
Melhora o espectrograma padrão ao:
- Mapear frequências para a escala Mel, alinhada com a audição humana
- Aplicar compressão logarítmica para reduzir sensibilidade a diferenças de volume
O resultado é uma «imagem sonora» bidimensional que captura com clareza:
- Estruturas fonéticas
- Características da voz
- Padrões temporais da fala
Modelos modernos como o Whisper usam espectrogramas Log-Mel como entrada principal.
Porque os espectrogramas Log-Mel são essenciais
Oferecem, entre outras vantagens:
- Maior proximidade com a audição humana
- Separação mais clara de fonemas
- Maior robustez a ruído e a variações de volume
- Melhor adequação a modelos de aprendizagem profunda
Marcam a transição de detetar som a interpretar fala.
Conclusão
Fala para texto não é só processar áudio — trata-se de compreender a estrutura da fala. As formas de onda permitem ver o som; os espectrogramas Log-Mel permitem às máquinas interpretá-lo.
A transformação forma de onda → espectrograma → Log-Mel é a base dos sistemas de fala para texto precisos e fiáveis atuais.
