
Whisper Large v3 Turbo em áudio do YouTube em inglês — benchmark de 29 de março de 2026 (WER, CER, RTF)
2026-03-29Test
Eric King
Author
Esta nota regista uma execução de configuração fixa em áudio em inglês de cerca de 18 minutos extraído de um envio YouTube. O avaliador reporta WER ≈ 67,6% com domínio de eliminações (6 449 vs 60 substituições, 0 inserções). Esse perfil sugere que a transcrição hipótese alinha mal em cobertura com a referência — comum quando a referência é a faixa de legendas da plataforma e a saída do ASR reflete outra segmentação ou duração — portanto as figuras devem ser lidas como diagnóstico, não como um “score de precisão” isolado e polido.
Vídeo e texto de referência. O WebVTT de referência (
ref.vtt) é o texto das legendas fornecido com o vídeo de origem (exportado como WebVTT). A hipótese (model.vtt) é Whisper large-v3-turbo no mesmo áudio subjacente. As métricas comparam essas legendas a esta execução de ASR — uma linha de base prática para “quão perto nossa pipeline fica do que o YouTube entrega como legendas”, não uma afirmação sobre verdade de referência verificada por humanos.1. Por que este benchmark importa
Fala no estilo YouTube está em todo lugar em fluxos reais: qualidade de microfone variável, bases musicais, cortes e longos monólogos ou diálogos. Avaliar ASR com legendas reais da plataforma como referência responde a uma pergunta concreta: se executarmos nossa própria stack baseada em Whisper no mesmo áudio, o quanto o texto se afasta do que os espectadores já veem como legendas? É útil para QA de legendas, reaproveitamento de conteúdo e indexação de busca — domínios em que “bom o suficiente” depende do produto, mas os números precisam ser reproduzíveis.
2. Configuração do teste
Os valores abaixo vêm de
other.yaml e result.json para este caso (modo diretório para que metadados YAML sejam anexados à saída do avaliador).| Field | Value |
|---|---|
| Source | YouTube video (audio aligned to that upload) |
| Date (processing window) | 2026-03-29 (processtime-at → completed-at in other.yaml) |
| Language | English |
| Whisper model | large-v3-turbo |
| Audio duration (YAML label) | 17:39 |
| Audio duration (scorer, from VTT) | 1059.88 s (≈ 17.7 minutes) |
| STT processing time | 175 s (sttProcessingTimeSeconds in result.json, from YAML timestamps) |
| RTF | 0.165 (from result.json) |
Intervalo de relógio de parede no YAML: 2026-03-29 16:04:37 → 2026-03-29 16:07:32 (consistente com 175 s de tempo de processamento).
3. Metodologia de avaliação
Referência e hipótese são ficheiros WebVTT. O texto das cues é extraído e depois normalizado (maiúsculas/minúsculas, pontuação, limpeza leve) antes da pontuação.
Alinhamento ao nível da palavra
As sequências de tokens são alinhadas com um programa dinâmico estilo Levenshtein; o retrocesso produz substituições (S), eliminações (D) e inserções (I) face ao comprimento de referência N.
[
\mathrm{WER} = \frac{S + D + I}{N}, \qquad \mathrm{Accuracy} = 1 - \mathrm{WER}.
]
Character Error Rate (CER)
Espaços em branco são removidos; a distância de edição entre caracteres é a distância de Levenshtein ao nível do caráter.
[
\mathrm{CER} = \frac{\text{Character edit distance}}{\text{Reference character count (no spaces)}}.
]
Real-Time Factor (RTF)
[
\mathrm{RTF} = \frac{\text{STT processing time}}{\text{Audio duration}}.
]
RTF abaixo de 1 significa descodificação mais rápida que o tempo real nesta execução.
4. Visão geral do modelo
Whisper large-v3-turbo visa boa qualidade com maior débito relativamente a variantes “large” mais pesadas (o comportamento depende da implementação e do hardware). É ASR multilingue de propósito geral, adequado a rascunhos de transcrição, pesquisa e rascunhos de legendas onde não se assume perfeição literal. Este benchmark usa uma configuração de descodificação registada em
other.yaml; não varre opções de descodificação, VAD nem pós-processamento.5. Resultados (de result.json)
Métricas exatas:
- Contagem de palavras de referência (N): 9627
- Substituições (S): 60
- Eliminações (D): 6449
- Inserções (I): 0
- WER: 0.6761192479484782
- Accuracy: 0.3238807520515218
- Contagem de caracteres de referência: 38334
- Distância de edição de caracteres: 25696
- CER: 0.6703187770647467
- Duração do áudio (segundos): 1059.8809999999999
- Tempo de processamento STT (segundos): 175
- RTF: 0.16511287587946197
- Tempo de execução do script de avaliação (segundos): 25.612
Arredondado para leitura
- WER ≈ 67,6%; precisão ≈ 32,4%
- CER ≈ 67,0%
- ~25,7k edições de caráter em ~38,3k caracteres de referência
- RTF ≈ 0,165× (cerca de 6× mais rápido que o tempo real)
6. Análise do padrão de erros
As inserções são zero e as eliminações superam largamente as substituições (6449 vs 60). Não é o perfil habitual de “ASR ruidoso com palavras de preenchimento a mais”; aponta para grandes extensos de texto de referência não correspondidos pela hipótese sob este alinhamento — consistente com desvio de duração, segmentação diferente ou referência que cobre mais conteúdo do que o ASR ouviu (por ex. ficheiro de legendas vs segmento de áudio). CER ≈ 67% reforça que a lacuna é ampla, não um punhado de trocas de palavras.
Para equipas de produto: não interpretar isto como “Whisper ouviu mal 68% das palavras” em sentido coloquial até confirmarem a mesma janela de áudio, o mesmo idioma e normalização de texto comparável entre a exportação das legendas e a saída do modelo.
7. Conclusões principais
- Velocidade: RTF ≈ 0,17 é atractivo para processar em lote clipes longos.
- Precisão: ~68% WER não está pronto para publicação sem revisão se forem necessárias citações fiéis.
- Forma do erro: muitas eliminações, zero inserções — auditar emparelhamento e cobertura antes de afinar o modelo.
- Realismo do cenário: ~18 minutos de inglês contínuo de uma fonte YouTube real é mais representativo do que clipes de brincadeira, mas continua a ser um vídeo e uma definição do modelo.
- Escolha da referência: usar legendas da plataforma ancora o teste a uma linha de base visível para o espectador, que pode diferir de uma nova transcrição humana.
8. Melhor modelo para este cenário
No âmbito restrito “large-v3-turbo neste clip, com legendas do YouTube como referência”, a execução é uma linha de base documentada: fixa débito (RTF) e desvio quantitativo (WER/CER) para comparações posteriores. Não é a afirmação de que este é o melhor modelo para todo o conteúdo em inglês no YouTube.
9. Veredicto final neutro
Para rascunhos internos, etiquetagem temática ou pesquisa aproximada, RTF baixo pode tornar esta stack utilizável se as partes interessadas aceitarem as taxas de erro e validarem passagens críticas.
Para citações literais, conformidade ou legendas críticas para acessibilidade, ~32% de precisão ao nível da palavra e erros dominados por eliminações significam que revisão humana ou correções de alinhamento continuam obrigatórias. Volte a executar o avaliador após qualquer alteração às entradas; a metodologia permanece comparável.
Materiais de origem
Nome da pasta do caso
{case-name} = 20260329 (espelho sob test-transcripts/ no repositório quando publicar os recursos).- Vídeo original (fonte de áudio): https://www.youtube.com/watch?v=E73XCmLAFe8 — as legendas de referência são as legendas fornecidas com este vídeo (exportadas como
ref.vtt). - Transcrição de referência (VTT):
test-transcripts/{case-name}/ref.vtt - Transcrição do modelo (VTT):
test-transcripts/{case-name}/model.vtt - Metadados da execução:
test-transcripts/{case-name}/other.yaml - Métricas de avaliação pré-calculadas:
test-transcripts/{case-name}/result.json
A pontuação usa
scripts/evaluate-vtt-metrics.js neste repositório. Para transcrições longas, execute o Node com limite de heap aumentado se necessário (por exemplo NODE_OPTIONS=--max-old-space-size=8192).