Whisper Large v3 Turbo numa entrevista em inglês — benchmark de 28 de março de 2026 (WER, CER, RTF)

Esta nota documenta uma única execução com configuração fixa em áudio estilo entrevista em inglês (~8,5 minutos). O avaliador reporta uma taxa de erro de palavras perto de 69%, com eliminações a dominar o orçamento de erro (2192 eliminações vs 188 substituições, 0 inserções). Esse padrão costuma significar que o texto hipótese cobre muito menos a referência do que uma transcrição «ruidosa mas completa» típica — os números devem ser lidos como diagnóstico, juntamente com uma verificação manual de que a saída do modelo e a referência descrevem a mesma gravação e segmentação.

Vídeo e texto de referência. O áudio testado vem de um vídeo de origem (link abaixo). O WebVTT de referência (ref.vtt) é a faixa de legendas fornecida com esse vídeo — exportada ou guardada como WebVTT a partir das legendas da plataforma — não uma transcrição «ouro» redigida de forma independente. A hipótese (model.vtt) é o ASR Whisper large-v3-turbo no mesmo áudio. As métricas comparam, portanto, legendas fornecidas pela plataforma com esta execução ASR, uma linha de base prática mas não o mesmo que pontuar contra transcrições de investigação curadas manualmente.

1. Porque este benchmark importa

Áudio de entrevista exige do ASR sobreposição de fala, ritmo irregular, nomes e números — condições comuns em trabalho editorial e de investigação. Publicar id do modelo, idioma, duração, carimbos de data/hora e métricas padrão torna a execução comparável a repetições ou outras pipelines; o objetivo é transparência, não uma promessa de produto.

2. Configuração do teste

Salvo indicação em contrário, os valores abaixo vêm de other.yaml e result.json para este caso.

Campo	Valor
Data (janela de processamento)	2026-03-28 (ver `processtime-at` / `completed-at` em `other.yaml`)
Cenário	Conteúdo estilo entrevista em inglês (etiqueta de idioma: English)
Modelo Whisper	large-v3-turbo (`whisper-model` em `other.yaml`)
Duração do áudio (YAML)	08:25 (rótulo 8 min 25 s em tempo real)
Duração do áudio (avaliador)	506.88 s (do intervalo de cues do VTT de referência em `result.json`)
Intervalo de processamento em tempo real	`processtime-at`: 2026-03-28 09:56:40.204 → `completed-at`: 2026-03-28 09:57:57.000
Tempo de processamento STT derivado	≈ 76.8 s (diferença entre os dois carimbos acima; não armazenado em `result.json` porque esta execução usou modo VTT explícito sem YAML anexado à saída do avaliador)
RTF derivado	≈ 0.151 (tempo de processamento ÷ 506.88 s de duração do áudio)

Nota: result.json lista "yamlMeta": null para esta execução explícita de dois ficheiros; o RTF aí é null. O tempo de processamento e o RTF neste artigo são recalculados a partir de other.yaml para consistência com a secção de metodologia.

3. Metodologia de avaliação

A referência e a hipótese são ficheiros WebVTT. Extrai-se texto simples das cues (carimbos e índices removidos), depois normaliza-se (maiúsculas/minúsculas, pontuação e tipografia simples) antes da pontuação.

Alinhamento ao nível da palavra

A referência e a hipótese alinham-se como sequências de tokens. Um programa dinâmico estilo Levenshtein padrão encontra um caminho de custo mínimo entre as duas sequências de palavras; o retrocesso produz contagens de substituições (S), eliminações (D) e inserções (I) relativamente ao comprimento de referência N.

Taxa de erro de palavras (WER) e precisão

Sejam (S), (D) e (I) as contagens de substituição, eliminação e inserção, e (N) o número de palavras de referência.

[ \mathrm{WER} = \frac{S + D + I}{N}, \qquad \mathrm{Accuracy} = 1 - \mathrm{WER}. ]

Taxa de erro de caracteres (CER)

Remove-se o espaço em branco das cadeias normalizadas. A distância de edição de caracteres é a distância de Levenshtein ao nível do carácter; a contagem de caracteres de referência é o comprimento da cadeia de referência sem espaços.

[ \mathrm{CER} = \frac{\text{Character edit distance}}{\text{Reference character count}}. ]

Fator em tempo real (RTF)

[ \mathrm{RTF} = \frac{\text{Processing time (seconds)}}{\text{Audio duration (seconds)}}. ]

RTF abaixo de 1 significa que a descodificação foi mais rápida que o tempo real neste hardware/execução.

4. Visão geral do modelo

Whisper large-v3-turbo situa-se na família «large» e troca parte do cálculo por débito face a checkpoints large completos (o comportamento exato depende da implementação e do hardware). É um ASR multilingue de propósito geral adequado a rascunhos e indexação de pesquisa onde não se assume fidelidade perfeita. Este teste cobre uma configuração de other.yaml; sem varrimento de temperatura, segmentação em blocos ou VAD.

5. Resultados (de `result.json`)

Valores exatos do objeto de métricas pré-calculado:

Contagem de palavras de referência (N): 3442
Substituições (S): 188
Eliminações (D): 2192
Inserções (I): 0
WER: 0.6914584543869843
Precisão: 0.3085415456130157
Contagem de caracteres de referência: 15790
Distância de edição de caracteres: 10494
CER: 0.664597846738442
Duração do áudio (segundos): 506.88
Tempo de processamento STT (no JSON): null (ver a secção 2 para duração derivada do YAML)
RTF (no JSON): null (RTF derivado ≈ 0.151 usando carimbos YAML)
Tempo de execução do script de avaliação: 3.11 s

Arredondado para leitura

WER ≈ 69.1%; precisão ≈ 30.9%
CER ≈ 66.5%
~10.5k edições de carácter em ~15.8k caracteres de referência
RTF ≈ 0.15× (mais rápido que o tempo real neste clip, usando tempo de processamento derivado do YAML)

6. Análise do padrão de erros

Com I = 0, a hipótese nunca adiciona palavras espúrias relativamente a este alinhamento; quase toda a massa de erro ao nível da palavra são eliminações e substituições, e as eliminações são uma ordem de magnitude maiores que as substituições (2192 vs 188).

Interpretação prática:

Perfis ricos em eliminações indicam frequentemente segmentos em falta na hipótese (tratamento de silêncio, paragem antecipada, comprimento de clip diferente, ou referência mais longa do que o áudio realmente transcrito).
Zero inserções raramente aparece em ASR do mundo real desordenado; quando ocorre com WER extremo, é um sinal para verificar o emparelhamento de dados (mesmo ficheiro, mesmo idioma, mesma edição da referência) antes de atribuir a pontuação apenas à «qualidade do modelo».

CER ~66% é consistente com longos trechos de texto que não coincidem entre referência e hipótese — não apenas trocas ocasionais de palavras.

7. Ideias-chave

Velocidade: RTF derivado ≈ 0.15 sugere que a pilha terminou numa fração do tempo real para este clip — útil onde a latência importa, independentemente do WER bruto.
Precisão: WER ~69% não é suficiente para citações publicáveis ou transcrições de nível legal sem revisão humana intensiva.
Forma do erro: Dominam as eliminações; priorizar investigação de cobertura e alinhamento de segmentos antes de afinar hiperparâmetros de descodificação.
Limites de amostra única: Uma entrevista e uma configuração de modelo não definem o desempenho esperado em produção em todos os sotaques, codecs ou ruído.
Reprodutibilidade: Manter os quatro artefactos juntos preserva um instantâneo congelado.

8. Melhor modelo para este cenário

Apenas para este clip e esta referência, Whisper large-v3-turbo é uma linha de base documentada: os carimbos descrevem o débito; WER/CER descrevem o desvio face à sua referência. Não se argumenta que seja o melhor modelo para todas as entrevistas em inglês.

9. Veredicto final neutro

Para rascunhos de notas, pesquisa interna ou indexação aproximada onde erros são aceitáveis e a velocidade importa, um RTF baixo e uma transcrição armazenada podem ainda ser úteis com avisos claros.

Para citar participantes, fluxos sensíveis a conformidade ou publicação de arquivo, a precisão lexical ~31% desta execução e o perfil de erro rico em eliminações implicam que deve ser assumida revisão humana ou captura/alinhamento de referência diferente até as pontuações melhorarem em pares validados.

Volte a executar o avaliador após corrigir problemas de dados; a metodologia permanece comparável.

Materiais de origem

Nome da pasta do caso: 20260328 (prefixo de caminho do repositório: test-transcripts/20260328/).

Vídeo original (fonte de áudio): Adicione o URL canónico ao mesmo vídeo cujas legendas serviram de referência (ex.: link de visualização do YouTube). O áudio processado para ASR deve corresponder a este carregamento.
Transcrição de referência (VTT): test-transcripts/20260328/ref.vtt — legendas fornecidas com o vídeo de origem, armazenadas como WebVTT para pontuação.
Transcrição do modelo (VTT): test-transcripts/20260328/model.vtt — saída Whisper large-v3-turbo nesse áudio.
Metadados da execução: test-transcripts/20260328/other.yaml
Métricas de avaliação pré-calculadas: test-transcripts/20260328/result.json

A avaliação foi produzida com scripts/evaluate-vtt-metrics.js neste repositório. Coloque os ficheiros acima sob test-transcripts/20260328/ para reproduzir os números citados.

Whisper Large v3 Turbo numa entrevista em inglês — benchmark de 28 de março de 2026 (WER, CER, RTF)

1. Porque este benchmark importa

2. Configuração do teste

3. Metodologia de avaliação

4. Visão geral do modelo

5. Resultados (de `result.json`)

6. Análise do padrão de erros

7. Ideias-chave

8. Melhor modelo para este cenário

9. Veredicto final neutro

Materiais de origem

Posts relacionados

Whisper Medium em áudio do YouTube em inglês — Benchmark 2026-03-31 (WER, CER, RTF)

Whisper Medium em áudio do YouTube em inglês — Benchmark 2026-03-30 (WER, CER, RTF)

Whisper Large v3 Turbo em áudio do YouTube em inglês — benchmark de 29 de março de 2026 (WER, CER, RTF)

Experimente grátis agora

Whisper Large v3 Turbo numa entrevista em inglês — benchmark de 28 de março de 2026 (WER, CER, RTF)

1. Porque este benchmark importa

2. Configuração do teste

3. Metodologia de avaliação

4. Visão geral do modelo

5. Resultados (de result.json)

6. Análise do padrão de erros

7. Ideias-chave

8. Melhor modelo para este cenário

9. Veredicto final neutro

Materiais de origem

Posts relacionados

Whisper Medium em áudio do YouTube em inglês — Benchmark 2026-03-31 (WER, CER, RTF)

Whisper Medium em áudio do YouTube em inglês — Benchmark 2026-03-30 (WER, CER, RTF)

Whisper Large v3 Turbo em áudio do YouTube em inglês — benchmark de 29 de março de 2026 (WER, CER, RTF)

Experimente grátis agora

5. Resultados (de `result.json`)