Deteção de atividade de voz (VAD)

A deteção de atividade de voz (Voice Activity Detection, VAD) é uma técnica de processamento de sinal usada para determinar automaticamente se um segmento de áudio contém fala humana ou silêncio/ruído de fundo. Em sistemas de voz, o VAD atua como etapa de pré-processamento que separa regiões de fala de regiões não verbais antes de passos posteriores como reconhecimento automático de fala (ASR), tradução de fala ou análise do locutor.

1. O que é a deteção de atividade de voz?

O VAD é um componente fundamental dos sistemas modernos de processamento de fala. Realiza uma classificação binária: para cada pequeno quadro de áudio decide se contém fala ou não fala (silêncio, ruído, música, etc.).

O princípio central é simples:

Quadro de áudio → modelo VAD → P(fala)

Se a probabilidade exceder um limiar pré-definido, o quadro é classificado como fala; caso contrário, como não fala.

2. Porque o VAD é importante

Sinais de áudio brutos frequentemente contêm:

Longos períodos de silêncio
Ruído de fundo
Sons não verbais (música, cliques, respiração)

Enviar esse áudio diretamente a modelos ASR leva a:

Computação desperdiçada ao processar silêncio e ruído
Menor precisão de reconhecimento por interferência do ruído
Segmentação instável e erros de pontuação
Custos de processamento mais elevados por cálculos desnecessários

Ao remover segmentos não verbais, o VAD melhora de forma significativa a eficiência e a precisão dos modelos a jusante.

3. Pipeline típico de processamento VAD

O fluxo VAD segue estes passos:

Áudio bruto →
Enquadramento (10–30 ms) →
Extração de características →
Estimação da probabilidade de fala →
Suavização temporal →
Geração de segmentos de fala

3.1 Enquadramento

O sinal é dividido em pequenos quadros sobrepostos (comummente 20 ms) para capturar características acústicas de curto prazo. Permite analisar o áudio em blocos geríveis preservando informação temporal por sobreposição.

3.2 Extração de características

Características comuns em VAD:

Energia de curto prazo – mede a potência do sinal
Taxa de passagem por zero – indica o conteúdo em frequência
Entropia espectral – mede a aleatoriedade no domínio da frequência
Bancos de filtros log-Mel – em VAD neuronal para melhor representação

Ajudam a distinguir fala de não fala capturando propriedades acústicas diferentes.

3.3 Estimação da probabilidade de fala

Um modelo (baseado em regras ou rede neuronal) estima a probabilidade de cada quadro conter fala. A probabilidade é comparada a um limiar para a decisão final.

3.4 Suavização temporal

Decisões ao nível do quadro são fundidas em segmentos contínuos com regras temporais:

Um segmento de fala começa quando a probabilidade permanece acima do limiar durante uma duração mínima
Um segmento termina quando o silêncio persiste além de uma duração pré-definida

Evita comutações frequentes entre fala e silêncio por ruído ou pausas breves.

4. De quadros a segmentos de fala

As decisões VAD por quadro precisam ser convertidas em segmentos contínuos:

Início de fala: o segmento começa quando a probabilidade permanece acima do limiar durante uma duração mínima
Fim de fala: o segmento termina quando o silêncio excede uma duração pré-definida

Previne fragmentação por ruído breve ou pausas dentro da fala real.

5. Padding e ajuste de limites

Para não cortar inícios e fins de fala, os sistemas VAD aplicam normalmente padding:

Uma pequena margem (p.ex. 100–300 ms) antes e depois dos segmentos detetados
Melhora naturalidade e precisão do reconhecimento
Ajuda a capturar palavras e frases completas que poderiam ficar parcialmente cortadas

Padding adequado evita truncar o início e o fim dos segmentos, crucial para transcrição precisa.

6. Tipos de algoritmos VAD

6.1 VAD baseado em regras

Usa características acústicas desenhadas manualmente e regras simples:

Vantagens: leve e rápido, adequado a ambientes com recursos limitados
Desvantagens: menos robusto ao ruído e a condições acústicas variáveis

Funciona bem em ambientes controlados; com ruído real é mais difícil.

6.2 VAD baseado em modelos estatísticos

Abordagens probabilísticas:

Modelos de mistura gaussiana (GMM) – modelam a distribuição de características de fala e não fala
Modelos ocultos de Markov (HMM) – captam dependências temporais entre quadros

Mais robustos que regras puras, mas exigem mais recursos computacionais.

6.3 VAD baseado em redes neuronais (padrão moderno)

Arquiteturas de aprendizagem profunda:

CNN / RNN / Transformer
Treinados em conjuntos grandes e ruidosos
Alta robustez em ambientes diversos

Exemplos de VAD modernos:

WebRTC VAD – muito usado em comunicação em tempo real
Silero VAD – VAD neuronal de alto desempenho com suporte multilingue

O VAD neuronal tornou-se o padrão em produção pela precisão e robustez superiores.

7. VAD em sistemas ASR

Em pipelines ASR modernos, o VAD aplica-se tipicamente antes do reconhecimento:

Áudio → VAD → segmentos de fala → modelo ASR → transcrição

Benefícios:

Reduz o tempo de inferência ASR ao processar apenas segmentos de fala
Melhora a estabilidade da descodificação evitando interferência do ruído
Permite processamento em paralelo de ficheiros longos por segmentação

O VAD age como filtro: apenas os segmentos relevantes vão para o modelo ASR dispendioso.

8. VAD e alinhamento de carimbos de data/hora

Cada segmento detetado conserva os tempos de início e fim originais. Após a transcrição, os carimbos por segmento são mapeados para a linha temporal global, garantindo:

Legendagem com sincronização precisa
Alinhamento áudio-texto para edição de vídeo, etc.
Diarização de locutores e segmentação

A preservação dos carimbos é crucial quando é necessária sincronização precisa entre áudio e texto.

9. Considerações práticas

Parâmetros-chave:

Comprimento do quadro – duração de cada quadro (tipicamente 10–30 ms)
Limiar de probabilidade de fala – probabilidade mínima para classificar como fala
Duração mínima de fala – segmento de fala mais curto permitido
Duração mínima de silêncio – silêncio para terminar um segmento
Comprimento do padding – margem antes e depois dos segmentos

Devem ser afinados ao cenário:

Reuniões: maior tolerância ao silêncio, vários locutores
Podcasts: fala clara, pouco ruído de fundo
Centros de contacto: ambientes ruidosos, qualidade de áudio variável

A afinação correta é essencial para um desempenho VAD ótimo.

Conclusão

A deteção de atividade de voz é um componente fundamental do processamento de fala. Ao detetar com precisão quando há fala, permite que modelos a jusante como o ASR operem de forma mais eficiente, precisa e fiável.

Em sistemas de nível de produção, o VAD não é opcional: é essencial. Os sistemas VAD neuronais modernos avançaram muito em robustez e precisão. À medida que a tecnologia de fala evolui, o VAD permanecerá um passo de pré-processamento crítico para o desempenho ótimo de toda a pipeline.