
Whisper Large v3 Turbo numa entrevista em inglês — benchmark de 28 de março de 2026 (WER, CER, RTF)
2026-03-28Test
Eric King
Author
Esta nota documenta uma única execução com configuração fixa em áudio estilo entrevista em inglês (~8,5 minutos). O avaliador reporta uma taxa de erro de palavras perto de 69%, com eliminações a dominar o orçamento de erro (2192 eliminações vs 188 substituições, 0 inserções). Esse padrão costuma significar que o texto hipótese cobre muito menos a referência do que uma transcrição «ruidosa mas completa» típica — os números devem ser lidos como diagnóstico, juntamente com uma verificação manual de que a saída do modelo e a referência descrevem a mesma gravação e segmentação.
Vídeo e texto de referência. O áudio testado vem de um vídeo de origem (link abaixo). O WebVTT de referência (
ref.vtt) é a faixa de legendas fornecida com esse vídeo — exportada ou guardada como WebVTT a partir das legendas da plataforma — não uma transcrição «ouro» redigida de forma independente. A hipótese (model.vtt) é o ASR Whisper large-v3-turbo no mesmo áudio. As métricas comparam, portanto, legendas fornecidas pela plataforma com esta execução ASR, uma linha de base prática mas não o mesmo que pontuar contra transcrições de investigação curadas manualmente.1. Porque este benchmark importa
Áudio de entrevista exige do ASR sobreposição de fala, ritmo irregular, nomes e números — condições comuns em trabalho editorial e de investigação. Publicar id do modelo, idioma, duração, carimbos de data/hora e métricas padrão torna a execução comparável a repetições ou outras pipelines; o objetivo é transparência, não uma promessa de produto.
2. Configuração do teste
Salvo indicação em contrário, os valores abaixo vêm de
other.yaml e result.json para este caso.| Campo | Valor |
|---|---|
| Data (janela de processamento) | 2026-03-28 (ver processtime-at / completed-at em other.yaml) |
| Cenário | Conteúdo estilo entrevista em inglês (etiqueta de idioma: English) |
| Modelo Whisper | large-v3-turbo (whisper-model em other.yaml) |
| Duração do áudio (YAML) | 08:25 (rótulo 8 min 25 s em tempo real) |
| Duração do áudio (avaliador) | 506.88 s (do intervalo de cues do VTT de referência em result.json) |
| Intervalo de processamento em tempo real | processtime-at: 2026-03-28 09:56:40.204 → completed-at: 2026-03-28 09:57:57.000 |
| Tempo de processamento STT derivado | ≈ 76.8 s (diferença entre os dois carimbos acima; não armazenado em result.json porque esta execução usou modo VTT explícito sem YAML anexado à saída do avaliador) |
| RTF derivado | ≈ 0.151 (tempo de processamento ÷ 506.88 s de duração do áudio) |
Nota:
result.json lista "yamlMeta": null para esta execução explícita de dois ficheiros; o RTF aí é null. O tempo de processamento e o RTF neste artigo são recalculados a partir de other.yaml para consistência com a secção de metodologia.3. Metodologia de avaliação
A referência e a hipótese são ficheiros WebVTT. Extrai-se texto simples das cues (carimbos e índices removidos), depois normaliza-se (maiúsculas/minúsculas, pontuação e tipografia simples) antes da pontuação.
Alinhamento ao nível da palavra
A referência e a hipótese alinham-se como sequências de tokens. Um programa dinâmico estilo Levenshtein padrão encontra um caminho de custo mínimo entre as duas sequências de palavras; o retrocesso produz contagens de substituições (S), eliminações (D) e inserções (I) relativamente ao comprimento de referência N.
Taxa de erro de palavras (WER) e precisão
Sejam (S), (D) e (I) as contagens de substituição, eliminação e inserção, e (N) o número de palavras de referência.
[
\mathrm{WER} = \frac{S + D + I}{N}, \qquad \mathrm{Accuracy} = 1 - \mathrm{WER}.
]
Taxa de erro de caracteres (CER)
Remove-se o espaço em branco das cadeias normalizadas. A distância de edição de caracteres é a distância de Levenshtein ao nível do carácter; a contagem de caracteres de referência é o comprimento da cadeia de referência sem espaços.
[
\mathrm{CER} = \frac{\text{Character edit distance}}{\text{Reference character count}}.
]
Fator em tempo real (RTF)
[
\mathrm{RTF} = \frac{\text{Processing time (seconds)}}{\text{Audio duration (seconds)}}.
]
RTF abaixo de 1 significa que a descodificação foi mais rápida que o tempo real neste hardware/execução.
4. Visão geral do modelo
Whisper large-v3-turbo situa-se na família «large» e troca parte do cálculo por débito face a checkpoints large completos (o comportamento exato depende da implementação e do hardware). É um ASR multilingue de propósito geral adequado a rascunhos e indexação de pesquisa onde não se assume fidelidade perfeita. Este teste cobre uma configuração de
other.yaml; sem varrimento de temperatura, segmentação em blocos ou VAD.5. Resultados (de result.json)
Valores exatos do objeto de métricas pré-calculado:
- Contagem de palavras de referência (N): 3442
- Substituições (S): 188
- Eliminações (D): 2192
- Inserções (I): 0
- WER: 0.6914584543869843
- Precisão: 0.3085415456130157
- Contagem de caracteres de referência: 15790
- Distância de edição de caracteres: 10494
- CER: 0.664597846738442
- Duração do áudio (segundos): 506.88
- Tempo de processamento STT (no JSON):
null(ver a secção 2 para duração derivada do YAML) - RTF (no JSON):
null(RTF derivado ≈ 0.151 usando carimbos YAML) - Tempo de execução do script de avaliação: 3.11 s
Arredondado para leitura
- WER ≈ 69.1%; precisão ≈ 30.9%
- CER ≈ 66.5%
- ~10.5k edições de carácter em ~15.8k caracteres de referência
- RTF ≈ 0.15× (mais rápido que o tempo real neste clip, usando tempo de processamento derivado do YAML)
6. Análise do padrão de erros
Com I = 0, a hipótese nunca adiciona palavras espúrias relativamente a este alinhamento; quase toda a massa de erro ao nível da palavra são eliminações e substituições, e as eliminações são uma ordem de magnitude maiores que as substituições (2192 vs 188).
Interpretação prática:
- Perfis ricos em eliminações indicam frequentemente segmentos em falta na hipótese (tratamento de silêncio, paragem antecipada, comprimento de clip diferente, ou referência mais longa do que o áudio realmente transcrito).
- Zero inserções raramente aparece em ASR do mundo real desordenado; quando ocorre com WER extremo, é um sinal para verificar o emparelhamento de dados (mesmo ficheiro, mesmo idioma, mesma edição da referência) antes de atribuir a pontuação apenas à «qualidade do modelo».
CER ~66% é consistente com longos trechos de texto que não coincidem entre referência e hipótese — não apenas trocas ocasionais de palavras.
7. Ideias-chave
- Velocidade: RTF derivado ≈ 0.15 sugere que a pilha terminou numa fração do tempo real para este clip — útil onde a latência importa, independentemente do WER bruto.
- Precisão: WER ~69% não é suficiente para citações publicáveis ou transcrições de nível legal sem revisão humana intensiva.
- Forma do erro: Dominam as eliminações; priorizar investigação de cobertura e alinhamento de segmentos antes de afinar hiperparâmetros de descodificação.
- Limites de amostra única: Uma entrevista e uma configuração de modelo não definem o desempenho esperado em produção em todos os sotaques, codecs ou ruído.
- Reprodutibilidade: Manter os quatro artefactos juntos preserva um instantâneo congelado.
8. Melhor modelo para este cenário
Apenas para este clip e esta referência, Whisper large-v3-turbo é uma linha de base documentada: os carimbos descrevem o débito; WER/CER descrevem o desvio face à sua referência. Não se argumenta que seja o melhor modelo para todas as entrevistas em inglês.
9. Veredicto final neutro
Para rascunhos de notas, pesquisa interna ou indexação aproximada onde erros são aceitáveis e a velocidade importa, um RTF baixo e uma transcrição armazenada podem ainda ser úteis com avisos claros.
Para citar participantes, fluxos sensíveis a conformidade ou publicação de arquivo, a precisão lexical ~31% desta execução e o perfil de erro rico em eliminações implicam que deve ser assumida revisão humana ou captura/alinhamento de referência diferente até as pontuações melhorarem em pares validados.
Volte a executar o avaliador após corrigir problemas de dados; a metodologia permanece comparável.
Materiais de origem
Nome da pasta do caso:
20260328 (prefixo de caminho do repositório: test-transcripts/20260328/).- Vídeo original (fonte de áudio): Adicione o URL canónico ao mesmo vídeo cujas legendas serviram de referência (ex.: link de visualização do YouTube). O áudio processado para ASR deve corresponder a este carregamento.
- Transcrição de referência (VTT):
test-transcripts/20260328/ref.vtt— legendas fornecidas com o vídeo de origem, armazenadas como WebVTT para pontuação. - Transcrição do modelo (VTT):
test-transcripts/20260328/model.vtt— saída Whisper large-v3-turbo nesse áudio. - Metadados da execução:
test-transcripts/20260328/other.yaml - Métricas de avaliação pré-calculadas:
test-transcripts/20260328/result.json
A avaliação foi produzida com
scripts/evaluate-vtt-metrics.js neste repositório. Coloque os ficheiros acima sob test-transcripts/20260328/ para reproduzir os números citados.