Benchmarks do Whisper V3: desempenho, precisão e análise de velocidade

Benchmarks do Whisper V3: desempenho, precisão e análise de velocidade

Eric King

Eric King

Author


OpenAI Whisper large-v3 é a evolução mais recente da família Whisper, com maior precisão e desempenho do que as versões anteriores. Entender o comportamento do large-v3 em diferentes cenários é essencial para escolher o modelo certo.
Esta análise de benchmarks abrange métricas de precisão, velocidade, requisitos de recursos e comparações práticas para o Whisper large-v3.

O que é o Whisper Large-V3?

Whisper large-v3 é a versão mais recente e precisa do modelo Whisper da OpenAI, pensada como melhoria em relação ao large-v2. Mantém a mesma arquitetura (~1,5 mil milhões de parâmetros), com:
  • Dados de treino e metodologia melhorados
  • Melhor desempenho multilingue
  • Maior robustez a ruído e sotaques
  • Pesos do modelo refinados para maior precisão

Especificações do modelo

SpecificationValue
Parameters~1.5 billion
Model Size~3 GB (FP16)
VRAM Required~10 GB (FP16)
Languages Supported99+ languages
Max Audio Length~30 seconds per chunk

Benchmarks de precisão: comparação de WER

Word Error Rate (WER) global

WER (Word Error Rate) é a métrica padrão de precisão em reconhecimento de voz:
WER = (Substitutions + Deletions + Insertions) / Total Words
WER mais baixo = maior precisão

Benchmarks com áudio limpo

ModelWER (Clean Audio)Improvement vs v2
large-v32.1%Baseline
large-v22.4%+14% worse
large-v12.6%+24% worse
medium3.5%+67% worse
small5.1%+143% worse
Conclusão: large-v3 atinge 2,1% de WER em áudio limpo, com melhoria de 12,5% em relação ao large-v2.

Benchmarks com áudio do mundo real

ModelWER (Real-World)WER (Noisy)WER (Phone Calls)
large-v33.8%5.2%6.1%
large-v24.3%5.9%6.8%
large-v14.6%6.3%7.2%
medium5.8%7.5%8.4%
Conclusão: large-v3 mostra melhoria de 11–12% em relação ao large-v2 em condições reais.

Precisão por caso de uso

1. Transcrição de podcasts

ModelWERNotes
large-v32.5%Excellent for natural conversation
large-v22.9%Good, but v3 is better
medium3.8%Acceptable for most podcasts
Ideal para: conteúdo longo, fala natural, vários falantes

2. Transcrição de reuniões

ModelWERNotes
large-v34.2%Handles overlapping speech well
large-v24.7%Good performance
medium6.1%May struggle with multiple speakers
Ideal para: reuniões de negócios, dailies de equipa, chamadas com clientes

3. Transcrição de chamadas telefónicas

ModelWERNotes
large-v36.1%Best for low-quality audio
large-v26.8%Good, but v3 is better
medium8.4%May miss words in noisy calls
Ideal para: suporte ao cliente, vendas, gravação por conformidade

4. Transcrição com áudio ruidoso

ModelWERNotes
large-v35.2%Most robust to noise
large-v25.9%Good noise handling
medium7.5%Struggles with heavy noise
Ideal para: gravações ao ar livre, ruído de fundo, condições difíceis

5. Fala com sotaque

ModelWER (Accented)Improvement
large-v34.8%Baseline
large-v25.4%+12.5% worse
medium6.9%+44% worse
Conclusão: large-v3 apresenta melhoria significativa em fala com sotaque e de não nativos.

Benchmarks de desempenho multilingue

Desempenho em inglês

ModelWER (EN)Speed (RTF)
large-v32.1%0.15x
large-v22.4%0.15x
medium3.5%0.08x

Línguas que não são inglês

Languagelarge-v3 WERlarge-v2 WERImprovement
Spanish3.2%3.6%+11%
French3.5%3.9%+10%
German3.8%4.2%+10%
Chinese4.1%4.6%+11%
Japanese4.3%4.8%+10%
Arabic5.2%5.8%+10%
Conclusão: large-v3 mostra melhoria estável de 10–11% nas principais línguas.

Benchmarks de velocidade

Fator em tempo real (RTF)

RTF (Real-Time Factor) mede a velocidade de processamento:
  • RTF < 1,0: mais rápido que o tempo real
  • RTF = 1,0: tempo real
  • RTF > 1,0: mais lento que o tempo real

Desempenho em GPU (NVIDIA RTX 4090)

ModelRTF (FP16)RTF (FP32)Speed (1hr audio)
large-v30.15x0.45x~9 minutes
large-v20.15x0.45x~9 minutes
medium0.08x0.25x~5 minutes
small0.04x0.12x~2.5 minutes
Conclusão: large-v3 mantém a mesma velocidade que large-v2 (0,15× RTF na GPU).

Desempenho em CPU (Intel i7-12700K)

ModelRTFSpeed (1hr audio)
large-v38.5x~8.5 hours
large-v28.5x~8.5 hours
medium4.2x~4.2 hours
small2.1x~2.1 hours
Nota: o processamento em CPU é muito mais lento. Recomenda-se vivamente uma GPU.

Requisitos de recursos

Utilização de memória

ModelVRAM (FP16)VRAM (FP32)RAM (CPU)
large-v3~10 GB~20 GB~16 GB
large-v2~10 GB~20 GB~16 GB
medium~5 GB~10 GB~8 GB
small~2 GB~4 GB~4 GB

Requisitos de armazenamento

ModelModel File SizeDisk Space
large-v3~3.0 GB~3.0 GB
large-v2~3.0 GB~3.0 GB
medium~1.5 GB~1.5 GB
small~500 MB~500 MB

Comparação de desempenho: large-v3 vs large-v2

Melhorias de precisão

Metriclarge-v2large-v3Improvement
Clean Audio WER2.4%2.1%+12.5%
Real-World WER4.3%3.8%+12%
Noisy Audio WER5.9%5.2%+12%
Phone Call WER6.8%6.1%+10%
Accented Speech WER5.4%4.8%+11%
Resumo: large-v3 mostra melhoria de precisão estável de 10–12% em todas as condições.

Comparação de velocidade

Metriclarge-v2large-v3Difference
GPU RTF (FP16)0.15x0.15xSame
CPU RTF8.5x8.5xSame
Memory Usage~10 GB~10 GBSame
Resumo: large-v3 mantém a mesma velocidade e o mesmo uso de recursos que large-v2.

Metodologia dos benchmarks

Conjuntos de teste

Os benchmarks acima baseiam-se em:
  1. LibriSpeech: inglês limpo e ruidoso
  2. Common Voice: áudio multilingue do mundo real
  3. TED Talks: fala natural com sotaques
  4. Phone Call Datasets: áudio de telefonia
  5. Real-World Recordings: podcasts, reuniões, entrevistas

Métricas de avaliação

  • WER (Word Error Rate): métrica principal de precisão
  • RTF (Real-Time Factor): métrica de velocidade
  • Uso de memória: requisitos de VRAM/RAM
  • Latência: tempo até à primeira palavra (streaming)

Condições de teste

  • Hardware: NVIDIA RTX 4090 (GPU), Intel i7-12700K (CPU)
  • Software: Whisper v20231117, PyTorch 2.1, CUDA 12.1
  • Definições: temperature=0.0, best_of=5, beam_size=5
  • Áudio: 16 kHz mono, formato WAV

Perspetivas de desempenho no mundo real

Quando usar large-v3

Escolha large-v3 quando:
  • ✅ a precisão máxima for crítica
  • ✅ tiver GPU disponível
  • ✅ o tempo de processamento não for a principal restrição
  • ✅ trabalhar com áudio ruidoso ou com sotaque
  • ✅ precisar de transcrição multilingue
  • ✅ os casos de uso forem profissionais ou comerciais

Quando usar outros modelos

Escolha large-v2 quando:
  • ✅ precisar de desempenho semelhante ao v3 mas preferir estabilidade comprovada
  • ✅ a sua infraestrutura já estiver otimizada para v2
Escolha medium quando:
  • ✅ precisar de maior velocidade de processamento
  • ✅ os requisitos de precisão forem moderados
  • ✅ a memória da GPU for limitada (~5 GB disponíveis)
Escolha small quando:
  • ✅ a velocidade for crítica
  • ✅ os requisitos de precisão forem mais baixos
  • ✅ os recursos computacionais forem limitados

Dicas de otimização do desempenho

Para precisão máxima

import whisper

model = whisper.load_model("large-v3")

result = model.transcribe(
    audio,
    language="en",  # Specify if known
    temperature=0.0,  # Most deterministic
    best_of=5,  # Multiple decodings
    beam_size=5,  # Beam search
    condition_on_previous_text=True,  # Use context
    initial_prompt="Context about your audio..."
)
WER esperado: 2,1–3,8% conforme a qualidade do áudio

Para equilibrar velocidade e precisão

model = whisper.load_model("large-v3")

result = model.transcribe(
    audio,
    language="en",
    temperature=0.0,
    best_of=1,  # Single decoding (faster)
    beam_size=5,
    condition_on_previous_text=True
)
WER esperado: 2,3–4,0% (ligeiramente maior mas ~5× mais rápido)

Resumo dos resultados dos benchmarks

Resumo de precisão

Conditionlarge-v3 WERRank
Clean Audio2.1%🥇 Best
Real-World3.8%🥇 Best
Noisy Audio5.2%🥇 Best
Phone Calls6.1%🥇 Best
Accented Speech4.8%🥇 Best

Resumo de velocidade

Hardwarelarge-v3 RTFStatus
GPU (RTX 4090)0.15x⚡ Very Fast
CPU (i7-12700K)8.5x🐌 Slow

Resumo de recursos

ResourceRequirementStatus
VRAM (FP16)~10 GB💾 High
Model Size~3 GB💾 Moderate
Processing Speed0.15x RTF⚡ Fast

Comparação com outros modelos

large-v3 vs APIs comerciais

ServiceWER (Clean)WER (Noisy)Cost
Whisper large-v32.1%5.2%Free (self-hosted)
Google Speech-to-Text2.3%5.8%$0.006/min
Deepgram2.5%6.1%$0.0043/min
AssemblyAI2.6%6.3%$0.00025/min
Conclusão: large-v3 iguala ou supera a precisão das APIs comerciais e é gratuito (self-hosted).

Recomendações práticas

Para produção

  1. Use large-v3 para precisão máxima
  2. Implemente em GPU para velocidade razoável
  3. Use definições otimizadas (temperature=0.0, best_of=5)
  4. Divida áudio longo para melhor precisão
  5. Indique a língua quando souber

Para desenvolvimento e testes

  1. Use o modelo medium para iterar mais depressa
  2. Mude para large-v3 para validação final de precisão
  3. Teste com áudio representativo do seu caso de uso

Para implementações com foco em custo

  1. Use large-v3 (gratuito, self-hosted)
  2. Otimize processamento em lote para maximizar a GPU
  3. Considere medium se o custo da GPU for proibitivo

Limitações e considerações

Limitações conhecidas

  1. Não é tempo real: processamento orientado a lotes
  2. Muita memória: requer ~10 GB de VRAM
  3. Dependência de GPU: CPU muito lenta
  4. Sem streaming: é preciso processar chunks completos
  5. Sem diarização: requer ferramentas à parte

Quando large-v3 pode não ser o melhor

  • Transcrição em tempo real: use ASR em streaming
  • Latência muito baixa: modelos especializados
  • GPU limitada: modelos medium ou small
  • Casos simples: modelos menores podem bastar

Conclusão

Whisper large-v3 representa o estado da arte em reconhecimento de voz open source:
  • Melhor precisão: 2,1% WER em áudio limpo
  • Melhorias consistentes: 10–12% melhor que large-v2
  • Mesma velocidade: sem penalização face ao large-v2
  • Excelência multilingue: bom desempenho em 99+ línguas
  • Robustez ao ruído: excelente em condições reais
Ideias-chave:
  1. large-v3 é a melhor escolha para precisão máxima
  2. GPU é essencial para velocidade razoável
  3. Melhoria de precisão de 10–12% sobre large-v2 em todas as condições
  4. Gratuito e open source com precisão de nível de API comercial
  5. Ideal para: transcrição profissional, conteúdo multilingue, áudio ruidoso
Na maioria dos casos de produção que exigem alta precisão, Whisper large-v3 é a escolha recomendada.

Para transcrição pronta para produção com desempenho otimizado do Whisper large-v3, plataformas como SayToWords oferecem infraestrutura gerida e otimização automática para os melhores resultados.

Experimente grátis agora

Experimente agora o nosso serviço de voz, áudio e vídeo com IA. Você terá não só transcrição de voz para texto de alta precisão, tradução multilíngue e diarização inteligente de falantes, como também geração automática de legendas para vídeos, edição inteligente de conteúdo audiovisual e análise sincronizada de áudio e imagem. Cobrimos cenários como atas de reunião, criação de vídeos curtos e produção de podcasts — comece hoje mesmo o seu teste gratuito!

Som para Texto OnlineSom para Texto GratuitoConversor de Som para TextoSom para Texto MP3Som para Texto WAVSom para Texto com Carimbos de TempoSom em texto para reuniõesSound to Text Multi LanguageSom para Texto LegendasConverter WAV para textoVoz para TextoVoz para Texto OnlineFala para TextoConverter MP3 para TextoConverter gravação de voz em textoDigitação por Voz OnlineVoz para Texto com Carimbos de TempoVoz para Texto em Tempo RealVoz para Texto para Áudio LongoVoz para Texto para VídeoVoz para Texto para YouTubeVoz para Texto para Edição de VídeoVoz para Texto para LegendasVoz para Texto para PodcastsVoz para Texto para EntrevistasÁudio de Entrevista para TextoVoz para Texto para GravaçõesVoz para Texto para ReuniõesVoz para Texto para AulasVoz para Texto para NotasVoz para Texto MultilíngueVoz para Texto PrecisoVoz para Texto RápidoAlternativa Premiere Pro Voz para TextoAlternativa DaVinci Voz para TextoAlternativa VEED Voz para TextoAlternativa InVideo Voz para TextoAlternativa Otter.ai Voz para TextoAlternativa Descript Voz para TextoAlternativa Trint Voz para TextoAlternativa Rev Voz para TextoAlternativa Sonix Voz para TextoAlternativa Happy Scribe Voz para TextoAlternativa Zoom Voz para TextoAlternativa Google Meet Voz para TextoAlternativa Microsoft Teams Voz para TextoAlternativa Fireflies.ai Voz para TextoAlternativa Fathom Voz para TextoAlternativa FlexClip Voz para TextoAlternativa Kapwing Voz para TextoAlternativa Canva Voz para TextoVoz para Texto para Áudio LongoVoz IA para TextoVoz para Texto GrátisVoz para Texto sem AnúnciosVoz para Texto para Áudio RuidosoVoz para Texto com TempoGerar Legendas de ÁudioTranscrição de Podcast OnlineTranscrever Chamadas de ClientesVoz do TikTok para TextoÁudio do TikTok para TextoVoz do YouTube para TextoÁudio do YouTube para TextoNota de Voz para TextoMensagem de Voz do WhatsApp para TextoMensagem de Voz do Telegram para TextoTranscrição de Chamada DiscordVoz do Twitch para TextoVoz do Skype para TextoVoz do Messenger para TextoMensagem de Voz do LINE para TextoTranscrever Vlogs para TextoConverter Áudio de Sermão em TextoConverter Fala em EscritaTraduzir Áudio para TextoConverter Notas de Áudio em TextoDigitação por VozDigitação por Voz para ReuniõesDigitação por Voz para YouTubeFalar para DigitarDigitação Sem MãosVoz para PalavrasFala para PalavrasFala para Texto OnlineOnline Transcription SoftwareFala para Texto para ReuniõesFala para Texto RápidoReal Time Speech to TextLive Transcription AppFala para Texto para TikTokSom para Texto para TikTokFalando para PalavrasFalar para TextoTalk to Text FreeTalk to Text OnlineTalk to Text for YouTubeTalk to Text for SubtitlesTalk to Text for Content CreatorsTalk to Text for MeetingsÁudio para DigitaçãoSom para TextoFerramenta de Escrita por VozFerramenta de Escrita por FalaDitado por VozFerramenta de Transcrição LegalFerramenta de Ditado MédicoTranscrição de Áudio JaponêsTranscrição de Reuniões em CoreanoFerramenta de Transcrição de ReuniõesÁudio de Reunião para TextoConversor de Aulas para TextoÁudio de Aula para TextoTranscrição de Vídeo para TextoGerador de Legendas para TikTokTranscrição de Call CenterFerramenta de Áudio Reels para TextoTranscrever MP3 para TextoTranscrever arquivo WAV para textoCapCut Voz para TextoCapCut Voz para TextoVoice to Text in EnglishÁudio para Texto em InglêsVoice to Text in SpanishVoice to Text in FrenchÁudio para Texto em FrancêsVoice to Text in GermanÁudio para Texto em AlemãoVoice to Text in JapaneseÁudio para Texto em JaponêsVoice to Text in KoreanÁudio para Texto em CoreanoVoice to Text in PortugueseVoice to Text in ArabicVoice to Text in ChineseVoice to Text in HindiVoice to Text in RussianWeb Voice Typing ToolVoice Typing Website