🎉 Estamos no ar! Todos os serviços são gratuitos durante nosso período de teste—planos de preços em breve.

Testei a transcrição de uma entrevista em inglês com IA — Resultados de 26 de fevereiro de 2026 (Whisper BASE, ~11 minutos de áudio)

Testei a transcrição de uma entrevista em inglês com IA — Resultados de 26 de fevereiro de 2026 (Whisper BASE, ~11 minutos de áudio)

2026-02-26Test
Eric King

Eric King

Author


1. Por que este benchmark de entrevista é importante

Em entrevistas reais, a precisão da transcrição não é um detalhe: é essencial. Ela determina se você pode citar convidados com segurança, buscar temas importantes e construir análises posteriores sem distorcer o que foi dito. Um adjetivo omitido, um número ouvido errado ou um nome próprio deformado podem mudar o sentido de uma resposta.
Neste benchmark, usei um trecho de entrevista em inglês com “Bill”, passei por um pipeline de transcrição baseado em Whisper e avaliei com métricas ASR padrão. O objetivo não é marketing, e sim fornecer um retrato concreto e reproduzível de como o sistema se comporta em uma entrevista real de duração moderada.
O áudio original da entrevista vem de um vídeo do YouTube, que você pode consultar para ter o contexto:
Vídeo original da entrevista no YouTube.

Source Materials

Todas as entradas usadas neste benchmark estão no repositório ou em recursos estáticos e podem ser inspecionadas diretamente:
Esses arquivos são as únicas fontes usadas para derivar os números e conclusões deste artigo.

Screenshots from this run

Dashboard de transcrição SayToWords — visão geral das métricas
Dashboard de transcrição SayToWords — visualização da transcrição

2. Configuração do teste (Testing Setup)

Para esta execução utilizei a seguinte configuração (todos os valores vêm das metainformações pré‑calculadas e de result.json):
  • Data da execução: 2026‑02‑26 (derivada dos timestamps de processamento)
  • Cenário: entrevista em inglês (test-transcripts/bill-interview)
  • Idioma: inglês
  • Duração do áudio:
    • audioDurationSeconds = 653.2934375
    • 10,89 minutos de material
  • Tempo de processamento:
    • sttProcessingTimeSeconds = 85.476
    • 1,42 minutos de decodificação ponta a ponta
  • Modelo / modo:
    • whisper-model: BASE
    • saytowords-mode: base
As condições de gravação, o tipo de microfone e a densidade da fala não estão documentados nas metainformações, por isso não faço suposições nem tento preenchê‑las. Todo o alinhamento e o scoring foram feitos antes da redação deste relatório; os valores abaixo são lidos diretamente de test-transcripts/bill-interview/result.json.

3. Metodologia de avaliação (Evaluation Methodology)

A transcrição humana de referência (ref.vtt) e a saída do modelo (model.vtt) estão em formato WebVTT. O pipeline de avaliação extrai primeiro o texto plano, depois alinha referência e hipótese e, por fim, calcula as métricas de erro.
Word Error Rate (WER)
Depois de tokenizar em sequências de palavras, contamos:
  • (S): substituições
  • (D): deleções (deletions)
  • (I): inserções
  • (N): número total de palavras de referência
A taxa de erros de palavra é definida por:
[ \text{WER} = \frac{S + D + I}{N} ]
A acurácia em nível de palavra (Accuracy) é:
[ \text{Accuracy} = 1 - \text{WER} ]
Character Error Rate (CER)
Em nível de caractere, espaços são removidos e é calculada uma distância de edição do tipo Levenshtein:
  • Distância de edição de caracteres: soma de inserções, deleções e substituições
  • Total de caracteres: número de caracteres da referência (sem espaços)
[ \text{CER} = \frac{\text{Character edit distance}}{\text{Total characters}} ]
Real‑Time Factor (RTF)
O throughput é medido com o Real‑Time Factor:
[ \text{RTF} = \frac{\text{Processing Time}}{\text{Audio Duration}} ]
Aqui, o tempo de processamento vem da diferença entre processtime-at e completed-at em other.yaml, e a duração do áudio de audio-duration no mesmo arquivo.
Notas de implementação
  • Todas as métricas são calculadas a partir de um alinhamento entre referência e hipótese.
  • As distâncias de edição (em nível de palavra e caractere) usam uma implementação Levenshtein de alto desempenho.
  • O motor de alinhamento roda sobre um backend otimizado em C++.
  • A complexidade temporal é da ordem de O(nm) para sequências de comprimento (n) e (m).
  • Todos os valores em result.json são determinísticos e reproduzíveis: mesmas entradas ⇒ mesmos resultados.

4. Visão geral do modelo (Model Overview)

Neste benchmark foi avaliada apenas uma configuração de modelo:
  • Whisper BASE (saytowords-mode: base)
    Um modelo de reconhecimento de fala de uso geral, com capacidade média, projetado para inglês multi‑sotaque e áudio de longa duração. Aqui ele é usado “como vem” (sem fine‑tuning e sem correção manual) para observar o comportamento bruto em um cenário real de entrevista.
Comparações futuras podem incluir variantes menores ou maiores do Whisper, além de sistemas não baseados em Whisper, mas este artigo se concentra em caracterizar essa única baseline.

5. Resultados (a partir de result.json)

Os seguintes valores são extraídos diretamente de test-transcripts/bill-interview/result.json:
  • Duração do áudio (s): 653.2934375
  • Tempo de processamento (s): 85.476
  • Palavras de referência (N): 1846
  • Substituições (S): 67
  • Deleções (D): 178
  • Inserções (I): 23
  • WER: 0.14517876489707476
  • Accuracy: 0.8548212351029252
  • Caracteres de referência: 7335
  • Distância de edição de caracteres: 825
  • CER: 0.11247443762781185
  • RTF: 0.13083860191079907
Reescrevendo de forma mais legível:
  • WER ≈ 14,52 %
  • Accuracy ≈ 85,48 %
  • CER ≈ 11,25 %
  • RTF ≈ 0,13, ou seja, cerca de 7,6× mais rápido que em tempo real.

6. Análise do padrão de erros (Error Pattern Analysis)

Não há marcações de erro por segmento nem visualizações dedicadas; a análise se baseia inteiramente nos totais agregados.
  • Tipo de erro dominante: deleções (deletions)
    • Deleções: D = 178
    • Substituições: S = 67
    • Inserções: I = 23
      As deleções representam a maior parte dos erros em nível de palavra. Isso indica que o modelo tende a deixar palavras de fora com mais frequência do que inventar conteúdo. Em uma entrevista, isso geralmente significa perder palavras funcionais, caudas de frases em fala rápida ou partes sobrepostas da fala que são resolvidas por omissão.
  • Substituições existem, mas são secundárias
    Com S = 67, as substituições representam aproximadamente um quarto de todos os erros. Normalmente correspondem a confusões lexicais: palavras de som parecido, nomes próprios mal reconhecidos ou termos de domínio pouco frequentes para o modelo.
  • Inserções são relativamente raras
    Observam‑se apenas I = 23 inserções. Isso é consistente com um modelo conservador em relação a alucinações de conteúdo: ele erra mais por omissão do que por adição.
Em nível de caractere:
  • Distância de edição de caracteres = 825 em 7335 caracteres, resultando em CER ≈ 11,25 %.
    Em comparação com uma WER de ~14,5 %, essa CER mais baixa sugere que muitas palavras incorretas permanecem próximas da referência em nível de caracteres — por exemplo, pequenas variações de flexão, erros ortográficos leves ou palavras compostas quebradas/juntas de forma diferente.
Sem marcações de erro alinhadas a timestamps, não é possível apontar «o minuto exato em que o modelo falhou». Ainda assim, a decomposição S/D/I já revela um perfil claro: o sistema tende a subtranscrever (under‑transcribe) mais do que a inventar trechos que não existem.

7. Principais insights (Key Insights)

Com base apenas nos números, podemos destacar alguns pontos:
  1. Bom equilíbrio entre velocidade e precisão para entrevistas
    Com RTF ≈ 0,13, o sistema processa ~10,9 minutos de áudio em ~1,4 minuto, mantendo WER ≈ 14,5 % e CER ≈ 11,3 %. Para processamento em lote de entrevistas, esse ponto de operação é bastante prático.
  2. Padrão de erro fortemente dominado por deleções
    Deleções (178) dominam sobre substituições (67) e inserções (23). Na prática, isso significa que você está mais sujeito a perder pequenos trechos de conteúdo do que ver o modelo inventar frases inteiras.
  3. Maior estabilidade em nível de caractere do que de palavra
    O fato de a CER ser menor que a WER indica que muitas palavras incorretas ainda são próximas da referência em nível de caracteres. Isso é positivo para tarefas como busca e agrupamento temático, que toleram variações lexicais leves.
  4. Volume de fala não trivial
    Com 1846 palavras de referência e 7335 caracteres, este cenário se aproxima de uma entrevista real, e não de um exemplo de brinquedo. As métricas refletem o comportamento do modelo ao longo de vários minutos de fala espontânea.

8. Melhor modelo para este cenário (Best Model for This Scenario)

Neste benchmark foi testado apenas Whisper BASE (modo base), o que faz dele simultaneamente:
  • o modelo mais forte do «quadro», e
  • o único ponto de comparação.
Nesse contexto, ele entrega:
  • WER ≈ 14,5 %, Accuracy ≈ 85,5 % em ~11 minutos de áudio de entrevista.
  • RTF ≈ 0,13, isto é, 7–8× mais rápido que em tempo real.
Para fluxos de trabalho que exigem transcrições de entrevistas rápidas e razoavelmente precisas — para navegação, busca ou citações aproximadas — essa configuração é numericamente adequada. Para cenários em que cada palavra precisa ser perfeita, as métricas deixam claro que ainda é necessária revisão humana ou um modelo mais forte.

9. Veredito final neutro (Neutral Final Verdict)

Nesta entrevista em inglês de 26 de fevereiro de 2026, o Whisper BASE em modo “base” apresenta:
  • um perfil de erro dominado por deleções, com poucas inserções,
  • uma WER nos médios 10 e poucos por cento e uma CER nos baixos 10 e poucos por cento, sustentadas por uma transcrição de referência não trivial,
  • um Real‑Time Factor em torno de 0,13, adequado a processamento em lote em grande escala.
O comportamento é numericamente consistente, reproduzível e rápido o suficiente para servir como infraestrutura de benchmark diário. Para um avaliador independente, a conclusão é direta: esta configuração é uma baseline viável para transcrição de entrevistas, mas ainda não substitui a revisão humana em domínios altamente sensíveis.

Artefatos de referência (Reference Artifacts)

A seguir estão estruturas dobráveis para a transcrição de referência e a transcrição do modelo. Você pode colar nelas o conteúdo completo dos arquivos VTT quando quiser.
ref.vtt (transcrição de referência)
<!-- Cole aqui o conteúdo completo de test-transcripts/bill-interview/ref.vtt -->
model.vtt (transcrição do modelo)
<!-- Cole aqui o conteúdo completo de test-transcripts/bill-interview/model.vtt -->

Experimente grátis agora

Experimente agora o nosso serviço de voz, áudio e vídeo com IA. Você terá não só transcrição de voz para texto de alta precisão, tradução multilíngue e diarização inteligente de falantes, como também geração automática de legendas para vídeos, edição inteligente de conteúdo audiovisual e análise sincronizada de áudio e imagem. Cobrimos cenários como atas de reunião, criação de vídeos curtos e produção de podcasts — comece hoje mesmo o seu teste gratuito!

Converter MP3 para TextoConverter gravação de voz em textoDigitação por Voz OnlineVoz para Texto com Carimbos de TempoVoz para Texto em Tempo RealVoz para Texto para Áudio LongoVoz para Texto para VídeoVoz para Texto para YouTubeVoz para Texto para Edição de VídeoVoz para Texto para LegendasVoz para Texto para PodcastsVoz para Texto para EntrevistasÁudio de Entrevista para TextoVoz para Texto para GravaçõesVoz para Texto para ReuniõesVoz para Texto para AulasVoz para Texto para NotasVoz para Texto MultilíngueVoz para Texto PrecisoVoz para Texto RápidoAlternativa Premiere Pro Voz para TextoAlternativa DaVinci Voz para TextoAlternativa VEED Voz para TextoAlternativa InVideo Voz para TextoAlternativa Otter.ai Voz para TextoAlternativa Descript Voz para TextoAlternativa Trint Voz para TextoAlternativa Rev Voz para TextoAlternativa Sonix Voz para TextoAlternativa Happy Scribe Voz para TextoAlternativa Zoom Voz para TextoAlternativa Google Meet Voz para TextoAlternativa Microsoft Teams Voz para TextoAlternativa Fireflies.ai Voz para TextoAlternativa Fathom Voz para TextoAlternativa FlexClip Voz para TextoAlternativa Kapwing Voz para TextoAlternativa Canva Voz para TextoVoz para Texto para Áudio LongoVoz IA para TextoVoz para Texto GrátisVoz para Texto sem AnúnciosVoz para Texto para Áudio RuidosoVoz para Texto com TempoGerar Legendas de ÁudioTranscrição de Podcast OnlineTranscrever Chamadas de ClientesVoz do TikTok para TextoÁudio do TikTok para TextoVoz do YouTube para TextoÁudio do YouTube para TextoNota de Voz para TextoMensagem de Voz do WhatsApp para TextoMensagem de Voz do Telegram para TextoTranscrição de Chamada DiscordVoz do Twitch para TextoVoz do Skype para TextoVoz do Messenger para TextoMensagem de Voz do LINE para TextoTranscrever Vlogs para TextoConverter Áudio de Sermão em TextoConverter Fala em EscritaTraduzir Áudio para TextoConverter Notas de Áudio em TextoDigitação por VozDigitação por Voz para ReuniõesDigitação por Voz para YouTubeFalar para DigitarDigitação Sem MãosVoz para PalavrasFala para PalavrasFala para Texto OnlineOnline Transcription SoftwareFala para Texto para ReuniõesFala para Texto RápidoReal Time Speech to TextLive Transcription AppFala para Texto para TikTokSom para Texto para TikTokFalando para PalavrasFalar para TextoTalk to Text FreeTalk to Text OnlineTalk to Text for YouTubeTalk to Text for SubtitlesTalk to Text for Content CreatorsTalk to Text for MeetingsÁudio para DigitaçãoSom para TextoFerramenta de Escrita por VozFerramenta de Escrita por FalaDitado por VozFerramenta de Transcrição LegalFerramenta de Ditado MédicoTranscrição de Áudio JaponêsTranscrição de Reuniões em CoreanoFerramenta de Transcrição de ReuniõesÁudio de Reunião para TextoConversor de Aulas para TextoÁudio de Aula para TextoTranscrição de Vídeo para TextoGerador de Legendas para TikTokTranscrição de Call CenterFerramenta de Áudio Reels para TextoTranscrever MP3 para TextoTranscrever arquivo WAV para textoCapCut Voz para TextoCapCut Voz para TextoVoice to Text in EnglishÁudio para Texto em InglêsVoice to Text in SpanishVoice to Text in FrenchÁudio para Texto em FrancêsVoice to Text in GermanÁudio para Texto em AlemãoVoice to Text in JapaneseÁudio para Texto em JaponêsVoice to Text in KoreanÁudio para Texto em CoreanoVoice to Text in PortugueseVoice to Text in ArabicVoice to Text in ChineseVoice to Text in HindiVoice to Text in RussianWeb Voice Typing ToolVoice Typing Website