Whisper Large v3 Turbo em áudio do YouTube em inglês — benchmark de 29 de março de 2026 (WER, CER, RTF)

Esta nota regista uma execução de configuração fixa em áudio em inglês de cerca de 18 minutos extraído de um envio YouTube. O avaliador reporta WER ≈ 67,6% com domínio de eliminações (6 449 vs 60 substituições, 0 inserções). Esse perfil sugere que a transcrição hipótese alinha mal em cobertura com a referência — comum quando a referência é a faixa de legendas da plataforma e a saída do ASR reflete outra segmentação ou duração — portanto as figuras devem ser lidas como diagnóstico, não como um “score de precisão” isolado e polido.

Vídeo e texto de referência. O WebVTT de referência (ref.vtt) é o texto das legendas fornecido com o vídeo de origem (exportado como WebVTT). A hipótese (model.vtt) é Whisper large-v3-turbo no mesmo áudio subjacente. As métricas comparam essas legendas a esta execução de ASR — uma linha de base prática para “quão perto nossa pipeline fica do que o YouTube entrega como legendas”, não uma afirmação sobre verdade de referência verificada por humanos.

1. Por que este benchmark importa

Fala no estilo YouTube está em todo lugar em fluxos reais: qualidade de microfone variável, bases musicais, cortes e longos monólogos ou diálogos. Avaliar ASR com legendas reais da plataforma como referência responde a uma pergunta concreta: se executarmos nossa própria stack baseada em Whisper no mesmo áudio, o quanto o texto se afasta do que os espectadores já veem como legendas? É útil para QA de legendas, reaproveitamento de conteúdo e indexação de busca — domínios em que “bom o suficiente” depende do produto, mas os números precisam ser reproduzíveis.

2. Configuração do teste

Os valores abaixo vêm de other.yaml e result.json para este caso (modo diretório para que metadados YAML sejam anexados à saída do avaliador).

Field	Value
Source	YouTube video (audio aligned to that upload)
Date (processing window)	2026-03-29 (`processtime-at` → `completed-at` in `other.yaml`)
Language	English
Whisper model	large-v3-turbo
Audio duration (YAML label)	17:39
Audio duration (scorer, from VTT)	1059.88 s (≈ 17.7 minutes)
STT processing time	175 s (`sttProcessingTimeSeconds` in `result.json`, from YAML timestamps)
RTF	0.165 (from `result.json`)

Intervalo de relógio de parede no YAML: 2026-03-29 16:04:37 → 2026-03-29 16:07:32 (consistente com 175 s de tempo de processamento).

3. Metodologia de avaliação

Referência e hipótese são ficheiros WebVTT. O texto das cues é extraído e depois normalizado (maiúsculas/minúsculas, pontuação, limpeza leve) antes da pontuação.

Alinhamento ao nível da palavra

As sequências de tokens são alinhadas com um programa dinâmico estilo Levenshtein; o retrocesso produz substituições (S), eliminações (D) e inserções (I) face ao comprimento de referência N.

[ \mathrm{WER} = \frac{S + D + I}{N}, \qquad \mathrm{Accuracy} = 1 - \mathrm{WER}. ]

Character Error Rate (CER)

Espaços em branco são removidos; a distância de edição entre caracteres é a distância de Levenshtein ao nível do caráter.

[ \mathrm{CER} = \frac{\text{Character edit distance}}{\text{Reference character count (no spaces)}}. ]

Real-Time Factor (RTF)

[ \mathrm{RTF} = \frac{\text{STT processing time}}{\text{Audio duration}}. ]

RTF abaixo de 1 significa descodificação mais rápida que o tempo real nesta execução.

4. Visão geral do modelo

Whisper large-v3-turbo visa boa qualidade com maior débito relativamente a variantes “large” mais pesadas (o comportamento depende da implementação e do hardware). É ASR multilingue de propósito geral, adequado a rascunhos de transcrição, pesquisa e rascunhos de legendas onde não se assume perfeição literal. Este benchmark usa uma configuração de descodificação registada em other.yaml; não varre opções de descodificação, VAD nem pós-processamento.

5. Resultados (de `result.json`)

Métricas exatas:

Contagem de palavras de referência (N): 9627
Substituições (S): 60
Eliminações (D): 6449
Inserções (I): 0
WER: 0.6761192479484782
Accuracy: 0.3238807520515218
Contagem de caracteres de referência: 38334
Distância de edição de caracteres: 25696
CER: 0.6703187770647467
Duração do áudio (segundos): 1059.8809999999999
Tempo de processamento STT (segundos): 175
RTF: 0.16511287587946197
Tempo de execução do script de avaliação (segundos): 25.612

Arredondado para leitura

WER ≈ 67,6%; precisão ≈ 32,4%
CER ≈ 67,0%
~25,7k edições de caráter em ~38,3k caracteres de referência
RTF ≈ 0,165× (cerca de 6× mais rápido que o tempo real)

6. Análise do padrão de erros

As inserções são zero e as eliminações superam largamente as substituições (6449 vs 60). Não é o perfil habitual de “ASR ruidoso com palavras de preenchimento a mais”; aponta para grandes extensos de texto de referência não correspondidos pela hipótese sob este alinhamento — consistente com desvio de duração, segmentação diferente ou referência que cobre mais conteúdo do que o ASR ouviu (por ex. ficheiro de legendas vs segmento de áudio). CER ≈ 67% reforça que a lacuna é ampla, não um punhado de trocas de palavras.

Para equipas de produto: não interpretar isto como “Whisper ouviu mal 68% das palavras” em sentido coloquial até confirmarem a mesma janela de áudio, o mesmo idioma e normalização de texto comparável entre a exportação das legendas e a saída do modelo.

7. Conclusões principais

Velocidade: RTF ≈ 0,17 é atractivo para processar em lote clipes longos.
Precisão: ~68% WER não está pronto para publicação sem revisão se forem necessárias citações fiéis.
Forma do erro: muitas eliminações, zero inserções — auditar emparelhamento e cobertura antes de afinar o modelo.
Realismo do cenário: ~18 minutos de inglês contínuo de uma fonte YouTube real é mais representativo do que clipes de brincadeira, mas continua a ser um vídeo e uma definição do modelo.
Escolha da referência: usar legendas da plataforma ancora o teste a uma linha de base visível para o espectador, que pode diferir de uma nova transcrição humana.

8. Melhor modelo para este cenário

No âmbito restrito “large-v3-turbo neste clip, com legendas do YouTube como referência”, a execução é uma linha de base documentada: fixa débito (RTF) e desvio quantitativo (WER/CER) para comparações posteriores. Não é a afirmação de que este é o melhor modelo para todo o conteúdo em inglês no YouTube.

9. Veredicto final neutro

Para rascunhos internos, etiquetagem temática ou pesquisa aproximada, RTF baixo pode tornar esta stack utilizável se as partes interessadas aceitarem as taxas de erro e validarem passagens críticas.

Para citações literais, conformidade ou legendas críticas para acessibilidade, ~32% de precisão ao nível da palavra e erros dominados por eliminações significam que revisão humana ou correções de alinhamento continuam obrigatórias. Volte a executar o avaliador após qualquer alteração às entradas; a metodologia permanece comparável.

Materiais de origem

Nome da pasta do caso {case-name} = 20260329 (espelho sob test-transcripts/ no repositório quando publicar os recursos).

Vídeo original (fonte de áudio): https://www.youtube.com/watch?v=E73XCmLAFe8 — as legendas de referência são as legendas fornecidas com este vídeo (exportadas como ref.vtt).
Transcrição de referência (VTT): test-transcripts/{case-name}/ref.vtt
Transcrição do modelo (VTT): test-transcripts/{case-name}/model.vtt
Metadados da execução: test-transcripts/{case-name}/other.yaml
Métricas de avaliação pré-calculadas: test-transcripts/{case-name}/result.json

A pontuação usa scripts/evaluate-vtt-metrics.js neste repositório. Para transcrições longas, execute o Node com limite de heap aumentado se necessário (por exemplo NODE_OPTIONS=--max-old-space-size=8192).

Whisper Large v3 Turbo em áudio do YouTube em inglês — benchmark de 29 de março de 2026 (WER, CER, RTF)

1. Por que este benchmark importa

2. Configuração do teste

3. Metodologia de avaliação

4. Visão geral do modelo

5. Resultados (de `result.json`)

6. Análise do padrão de erros

7. Conclusões principais

8. Melhor modelo para este cenário

9. Veredicto final neutro

Materiais de origem

Posts relacionados

Whisper Medium em áudio do YouTube em inglês — Benchmark 2026-03-31 (WER, CER, RTF)

Whisper Medium em áudio do YouTube em inglês — Benchmark 2026-03-30 (WER, CER, RTF)

Whisper Large v3 Turbo numa entrevista em inglês — benchmark de 28 de março de 2026 (WER, CER, RTF)

Experimente grátis agora

Whisper Large v3 Turbo em áudio do YouTube em inglês — benchmark de 29 de março de 2026 (WER, CER, RTF)

1. Por que este benchmark importa

2. Configuração do teste

3. Metodologia de avaliação

4. Visão geral do modelo

5. Resultados (de result.json)

6. Análise do padrão de erros

7. Conclusões principais

8. Melhor modelo para este cenário

9. Veredicto final neutro

Materiais de origem

Posts relacionados

Whisper Medium em áudio do YouTube em inglês — Benchmark 2026-03-31 (WER, CER, RTF)

Whisper Medium em áudio do YouTube em inglês — Benchmark 2026-03-30 (WER, CER, RTF)

Whisper Large v3 Turbo numa entrevista em inglês — benchmark de 28 de março de 2026 (WER, CER, RTF)

Experimente grátis agora

5. Resultados (de `result.json`)