Whisper Large v3 Turbo numa entrevista em inglês — benchmark de 28 de março de 2026 (WER, CER, RTF)

Whisper Large v3 Turbo numa entrevista em inglês — benchmark de 28 de março de 2026 (WER, CER, RTF)

2026-03-28Test
Eric King

Eric King

Author


Esta nota documenta uma única execução com configuração fixa em áudio estilo entrevista em inglês (~8,5 minutos). O avaliador reporta uma taxa de erro de palavras perto de 69%, com eliminações a dominar o orçamento de erro (2192 eliminações vs 188 substituições, 0 inserções). Esse padrão costuma significar que o texto hipótese cobre muito menos a referência do que uma transcrição «ruidosa mas completa» típica — os números devem ser lidos como diagnóstico, juntamente com uma verificação manual de que a saída do modelo e a referência descrevem a mesma gravação e segmentação.
Vídeo e texto de referência. O áudio testado vem de um vídeo de origem (link abaixo). O WebVTT de referência (ref.vtt) é a faixa de legendas fornecida com esse vídeo — exportada ou guardada como WebVTT a partir das legendas da plataforma — não uma transcrição «ouro» redigida de forma independente. A hipótese (model.vtt) é o ASR Whisper large-v3-turbo no mesmo áudio. As métricas comparam, portanto, legendas fornecidas pela plataforma com esta execução ASR, uma linha de base prática mas não o mesmo que pontuar contra transcrições de investigação curadas manualmente.

1. Porque este benchmark importa

Áudio de entrevista exige do ASR sobreposição de fala, ritmo irregular, nomes e números — condições comuns em trabalho editorial e de investigação. Publicar id do modelo, idioma, duração, carimbos de data/hora e métricas padrão torna a execução comparável a repetições ou outras pipelines; o objetivo é transparência, não uma promessa de produto.

2. Configuração do teste

Salvo indicação em contrário, os valores abaixo vêm de other.yaml e result.json para este caso.
CampoValor
Data (janela de processamento)2026-03-28 (ver processtime-at / completed-at em other.yaml)
CenárioConteúdo estilo entrevista em inglês (etiqueta de idioma: English)
Modelo Whisperlarge-v3-turbo (whisper-model em other.yaml)
Duração do áudio (YAML)08:25 (rótulo 8 min 25 s em tempo real)
Duração do áudio (avaliador)506.88 s (do intervalo de cues do VTT de referência em result.json)
Intervalo de processamento em tempo realprocesstime-at: 2026-03-28 09:56:40.204completed-at: 2026-03-28 09:57:57.000
Tempo de processamento STT derivado76.8 s (diferença entre os dois carimbos acima; não armazenado em result.json porque esta execução usou modo VTT explícito sem YAML anexado à saída do avaliador)
RTF derivado0.151 (tempo de processamento ÷ 506.88 s de duração do áudio)
Nota: result.json lista "yamlMeta": null para esta execução explícita de dois ficheiros; o RTF aí é null. O tempo de processamento e o RTF neste artigo são recalculados a partir de other.yaml para consistência com a secção de metodologia.

3. Metodologia de avaliação

A referência e a hipótese são ficheiros WebVTT. Extrai-se texto simples das cues (carimbos e índices removidos), depois normaliza-se (maiúsculas/minúsculas, pontuação e tipografia simples) antes da pontuação.
Alinhamento ao nível da palavra
A referência e a hipótese alinham-se como sequências de tokens. Um programa dinâmico estilo Levenshtein padrão encontra um caminho de custo mínimo entre as duas sequências de palavras; o retrocesso produz contagens de substituições (S), eliminações (D) e inserções (I) relativamente ao comprimento de referência N.
Taxa de erro de palavras (WER) e precisão
Sejam (S), (D) e (I) as contagens de substituição, eliminação e inserção, e (N) o número de palavras de referência.
[ \mathrm{WER} = \frac{S + D + I}{N}, \qquad \mathrm{Accuracy} = 1 - \mathrm{WER}. ]
Taxa de erro de caracteres (CER)
Remove-se o espaço em branco das cadeias normalizadas. A distância de edição de caracteres é a distância de Levenshtein ao nível do carácter; a contagem de caracteres de referência é o comprimento da cadeia de referência sem espaços.
[ \mathrm{CER} = \frac{\text{Character edit distance}}{\text{Reference character count}}. ]
Fator em tempo real (RTF)
[ \mathrm{RTF} = \frac{\text{Processing time (seconds)}}{\text{Audio duration (seconds)}}. ]
RTF abaixo de 1 significa que a descodificação foi mais rápida que o tempo real neste hardware/execução.

4. Visão geral do modelo

Whisper large-v3-turbo situa-se na família «large» e troca parte do cálculo por débito face a checkpoints large completos (o comportamento exato depende da implementação e do hardware). É um ASR multilingue de propósito geral adequado a rascunhos e indexação de pesquisa onde não se assume fidelidade perfeita. Este teste cobre uma configuração de other.yaml; sem varrimento de temperatura, segmentação em blocos ou VAD.

5. Resultados (de result.json)

Valores exatos do objeto de métricas pré-calculado:
  • Contagem de palavras de referência (N): 3442
  • Substituições (S): 188
  • Eliminações (D): 2192
  • Inserções (I): 0
  • WER: 0.6914584543869843
  • Precisão: 0.3085415456130157
  • Contagem de caracteres de referência: 15790
  • Distância de edição de caracteres: 10494
  • CER: 0.664597846738442
  • Duração do áudio (segundos): 506.88
  • Tempo de processamento STT (no JSON): null (ver a secção 2 para duração derivada do YAML)
  • RTF (no JSON): null (RTF derivado ≈ 0.151 usando carimbos YAML)
  • Tempo de execução do script de avaliação: 3.11 s
Arredondado para leitura
  • WER ≈ 69.1%; precisão ≈ 30.9%
  • CER ≈ 66.5%
  • ~10.5k edições de carácter em ~15.8k caracteres de referência
  • RTF ≈ 0.15× (mais rápido que o tempo real neste clip, usando tempo de processamento derivado do YAML)

6. Análise do padrão de erros

Com I = 0, a hipótese nunca adiciona palavras espúrias relativamente a este alinhamento; quase toda a massa de erro ao nível da palavra são eliminações e substituições, e as eliminações são uma ordem de magnitude maiores que as substituições (2192 vs 188).
Interpretação prática:
  • Perfis ricos em eliminações indicam frequentemente segmentos em falta na hipótese (tratamento de silêncio, paragem antecipada, comprimento de clip diferente, ou referência mais longa do que o áudio realmente transcrito).
  • Zero inserções raramente aparece em ASR do mundo real desordenado; quando ocorre com WER extremo, é um sinal para verificar o emparelhamento de dados (mesmo ficheiro, mesmo idioma, mesma edição da referência) antes de atribuir a pontuação apenas à «qualidade do modelo».
CER ~66% é consistente com longos trechos de texto que não coincidem entre referência e hipótese — não apenas trocas ocasionais de palavras.

7. Ideias-chave

  • Velocidade: RTF derivado ≈ 0.15 sugere que a pilha terminou numa fração do tempo real para este clip — útil onde a latência importa, independentemente do WER bruto.
  • Precisão: WER ~69% não é suficiente para citações publicáveis ou transcrições de nível legal sem revisão humana intensiva.
  • Forma do erro: Dominam as eliminações; priorizar investigação de cobertura e alinhamento de segmentos antes de afinar hiperparâmetros de descodificação.
  • Limites de amostra única: Uma entrevista e uma configuração de modelo não definem o desempenho esperado em produção em todos os sotaques, codecs ou ruído.
  • Reprodutibilidade: Manter os quatro artefactos juntos preserva um instantâneo congelado.

8. Melhor modelo para este cenário

Apenas para este clip e esta referência, Whisper large-v3-turbo é uma linha de base documentada: os carimbos descrevem o débito; WER/CER descrevem o desvio face à sua referência. Não se argumenta que seja o melhor modelo para todas as entrevistas em inglês.

9. Veredicto final neutro

Para rascunhos de notas, pesquisa interna ou indexação aproximada onde erros são aceitáveis e a velocidade importa, um RTF baixo e uma transcrição armazenada podem ainda ser úteis com avisos claros.
Para citar participantes, fluxos sensíveis a conformidade ou publicação de arquivo, a precisão lexical ~31% desta execução e o perfil de erro rico em eliminações implicam que deve ser assumida revisão humana ou captura/alinhamento de referência diferente até as pontuações melhorarem em pares validados.
Volte a executar o avaliador após corrigir problemas de dados; a metodologia permanece comparável.

Materiais de origem

Nome da pasta do caso: 20260328 (prefixo de caminho do repositório: test-transcripts/20260328/).
  • Vídeo original (fonte de áudio): Adicione o URL canónico ao mesmo vídeo cujas legendas serviram de referência (ex.: link de visualização do YouTube). O áudio processado para ASR deve corresponder a este carregamento.
  • Transcrição de referência (VTT): test-transcripts/20260328/ref.vttlegendas fornecidas com o vídeo de origem, armazenadas como WebVTT para pontuação.
  • Transcrição do modelo (VTT): test-transcripts/20260328/model.vtt — saída Whisper large-v3-turbo nesse áudio.
  • Metadados da execução: test-transcripts/20260328/other.yaml
  • Métricas de avaliação pré-calculadas: test-transcripts/20260328/result.json
A avaliação foi produzida com scripts/evaluate-vtt-metrics.js neste repositório. Coloque os ficheiros acima sob test-transcripts/20260328/ para reproduzir os números citados.

Experimente grátis agora

Experimente agora o nosso serviço de voz, áudio e vídeo com IA. Você terá não só transcrição de voz para texto de alta precisão, tradução multilíngue e diarização inteligente de falantes, como também geração automática de legendas para vídeos, edição inteligente de conteúdo audiovisual e análise sincronizada de áudio e imagem. Cobrimos cenários como atas de reunião, criação de vídeos curtos e produção de podcasts — comece hoje mesmo o seu teste gratuito!

Som para Texto OnlineSom para Texto GratuitoConversor de Som para TextoSom para Texto MP3Som para Texto WAVSom para Texto com Carimbos de TempoSom em texto para reuniõesSound to Text Multi LanguageSom para Texto LegendasConverter WAV para textoVoz para TextoVoz para Texto OnlineFala para TextoConverter MP3 para TextoConverter gravação de voz em textoDigitação por Voz OnlineVoz para Texto com Carimbos de TempoVoz para Texto em Tempo RealVoz para Texto para Áudio LongoVoz para Texto para VídeoVoz para Texto para YouTubeVoz para Texto para Edição de VídeoVoz para Texto para LegendasVoz para Texto para PodcastsVoz para Texto para EntrevistasÁudio de Entrevista para TextoVoz para Texto para GravaçõesVoz para Texto para ReuniõesVoz para Texto para AulasVoz para Texto para NotasVoz para Texto MultilíngueVoz para Texto PrecisoVoz para Texto RápidoAlternativa Premiere Pro Voz para TextoAlternativa DaVinci Voz para TextoAlternativa VEED Voz para TextoAlternativa InVideo Voz para TextoAlternativa Otter.ai Voz para TextoAlternativa Descript Voz para TextoAlternativa Trint Voz para TextoAlternativa Rev Voz para TextoAlternativa Sonix Voz para TextoAlternativa Happy Scribe Voz para TextoAlternativa Zoom Voz para TextoAlternativa Google Meet Voz para TextoAlternativa Microsoft Teams Voz para TextoAlternativa Fireflies.ai Voz para TextoAlternativa Fathom Voz para TextoAlternativa FlexClip Voz para TextoAlternativa Kapwing Voz para TextoAlternativa Canva Voz para TextoVoz para Texto para Áudio LongoVoz IA para TextoVoz para Texto GrátisVoz para Texto sem AnúnciosVoz para Texto para Áudio RuidosoVoz para Texto com TempoGerar Legendas de ÁudioTranscrição de Podcast OnlineTranscrever Chamadas de ClientesVoz do TikTok para TextoÁudio do TikTok para TextoVoz do YouTube para TextoÁudio do YouTube para TextoNota de Voz para TextoMensagem de Voz do WhatsApp para TextoMensagem de Voz do Telegram para TextoTranscrição de Chamada DiscordVoz do Twitch para TextoVoz do Skype para TextoVoz do Messenger para TextoMensagem de Voz do LINE para TextoTranscrever Vlogs para TextoConverter Áudio de Sermão em TextoConverter Fala em EscritaTraduzir Áudio para TextoConverter Notas de Áudio em TextoDigitação por VozDigitação por Voz para ReuniõesDigitação por Voz para YouTubeFalar para DigitarDigitação Sem MãosVoz para PalavrasFala para PalavrasFala para Texto OnlineOnline Transcription SoftwareFala para Texto para ReuniõesFala para Texto RápidoReal Time Speech to TextLive Transcription AppFala para Texto para TikTokSom para Texto para TikTokFalando para PalavrasFalar para TextoTalk to Text FreeTalk to Text OnlineTalk to Text for YouTubeTalk to Text for SubtitlesTalk to Text for Content CreatorsTalk to Text for MeetingsÁudio para DigitaçãoSom para TextoFerramenta de Escrita por VozFerramenta de Escrita por FalaDitado por VozFerramenta de Transcrição LegalFerramenta de Ditado MédicoTranscrição de Áudio JaponêsTranscrição de Reuniões em CoreanoFerramenta de Transcrição de ReuniõesÁudio de Reunião para TextoConversor de Aulas para TextoÁudio de Aula para TextoTranscrição de Vídeo para TextoGerador de Legendas para TikTokTranscrição de Call CenterFerramenta de Áudio Reels para TextoTranscrever MP3 para TextoTranscrever arquivo WAV para textoCapCut Voz para TextoCapCut Voz para TextoVoice to Text in EnglishÁudio para Texto em InglêsVoice to Text in SpanishVoice to Text in FrenchÁudio para Texto em FrancêsVoice to Text in GermanÁudio para Texto em AlemãoVoice to Text in JapaneseÁudio para Texto em JaponêsVoice to Text in KoreanÁudio para Texto em CoreanoVoice to Text in PortugueseVoice to Text in ArabicVoice to Text in ChineseVoice to Text in HindiVoice to Text in RussianWeb Voice Typing ToolVoice Typing Website