
Benchmarks do Whisper V3: desempenho, precisão e análise de velocidade
Eric King
Author
OpenAI Whisper large-v3 é a evolução mais recente da família Whisper, com maior precisão e desempenho do que as versões anteriores. Entender o comportamento do large-v3 em diferentes cenários é essencial para escolher o modelo certo.
Esta análise de benchmarks abrange métricas de precisão, velocidade, requisitos de recursos e comparações práticas para o Whisper large-v3.
O que é o Whisper Large-V3?
Whisper large-v3 é a versão mais recente e precisa do modelo Whisper da OpenAI, pensada como melhoria em relação ao large-v2. Mantém a mesma arquitetura (~1,5 mil milhões de parâmetros), com:
- Dados de treino e metodologia melhorados
- Melhor desempenho multilingue
- Maior robustez a ruído e sotaques
- Pesos do modelo refinados para maior precisão
Especificações do modelo
| Specification | Value |
|---|---|
| Parameters | ~1.5 billion |
| Model Size | ~3 GB (FP16) |
| VRAM Required | ~10 GB (FP16) |
| Languages Supported | 99+ languages |
| Max Audio Length | ~30 seconds per chunk |
Benchmarks de precisão: comparação de WER
Word Error Rate (WER) global
WER (Word Error Rate) é a métrica padrão de precisão em reconhecimento de voz:
WER = (Substitutions + Deletions + Insertions) / Total Words
WER mais baixo = maior precisão
Benchmarks com áudio limpo
| Model | WER (Clean Audio) | Improvement vs v2 |
|---|---|---|
| large-v3 | 2.1% | Baseline |
| large-v2 | 2.4% | +14% worse |
| large-v1 | 2.6% | +24% worse |
| medium | 3.5% | +67% worse |
| small | 5.1% | +143% worse |
Conclusão: large-v3 atinge 2,1% de WER em áudio limpo, com melhoria de 12,5% em relação ao large-v2.
Benchmarks com áudio do mundo real
| Model | WER (Real-World) | WER (Noisy) | WER (Phone Calls) |
|---|---|---|---|
| large-v3 | 3.8% | 5.2% | 6.1% |
| large-v2 | 4.3% | 5.9% | 6.8% |
| large-v1 | 4.6% | 6.3% | 7.2% |
| medium | 5.8% | 7.5% | 8.4% |
Conclusão: large-v3 mostra melhoria de 11–12% em relação ao large-v2 em condições reais.
Precisão por caso de uso
1. Transcrição de podcasts
| Model | WER | Notes |
|---|---|---|
| large-v3 | 2.5% | Excellent for natural conversation |
| large-v2 | 2.9% | Good, but v3 is better |
| medium | 3.8% | Acceptable for most podcasts |
Ideal para: conteúdo longo, fala natural, vários falantes
2. Transcrição de reuniões
| Model | WER | Notes |
|---|---|---|
| large-v3 | 4.2% | Handles overlapping speech well |
| large-v2 | 4.7% | Good performance |
| medium | 6.1% | May struggle with multiple speakers |
Ideal para: reuniões de negócios, dailies de equipa, chamadas com clientes
3. Transcrição de chamadas telefónicas
| Model | WER | Notes |
|---|---|---|
| large-v3 | 6.1% | Best for low-quality audio |
| large-v2 | 6.8% | Good, but v3 is better |
| medium | 8.4% | May miss words in noisy calls |
Ideal para: suporte ao cliente, vendas, gravação por conformidade
4. Transcrição com áudio ruidoso
| Model | WER | Notes |
|---|---|---|
| large-v3 | 5.2% | Most robust to noise |
| large-v2 | 5.9% | Good noise handling |
| medium | 7.5% | Struggles with heavy noise |
Ideal para: gravações ao ar livre, ruído de fundo, condições difíceis
5. Fala com sotaque
| Model | WER (Accented) | Improvement |
|---|---|---|
| large-v3 | 4.8% | Baseline |
| large-v2 | 5.4% | +12.5% worse |
| medium | 6.9% | +44% worse |
Conclusão: large-v3 apresenta melhoria significativa em fala com sotaque e de não nativos.
Benchmarks de desempenho multilingue
Desempenho em inglês
| Model | WER (EN) | Speed (RTF) |
|---|---|---|
| large-v3 | 2.1% | 0.15x |
| large-v2 | 2.4% | 0.15x |
| medium | 3.5% | 0.08x |
Línguas que não são inglês
| Language | large-v3 WER | large-v2 WER | Improvement |
|---|---|---|---|
| Spanish | 3.2% | 3.6% | +11% |
| French | 3.5% | 3.9% | +10% |
| German | 3.8% | 4.2% | +10% |
| Chinese | 4.1% | 4.6% | +11% |
| Japanese | 4.3% | 4.8% | +10% |
| Arabic | 5.2% | 5.8% | +10% |
Conclusão: large-v3 mostra melhoria estável de 10–11% nas principais línguas.
Benchmarks de velocidade
Fator em tempo real (RTF)
RTF (Real-Time Factor) mede a velocidade de processamento:
- RTF < 1,0: mais rápido que o tempo real
- RTF = 1,0: tempo real
- RTF > 1,0: mais lento que o tempo real
Desempenho em GPU (NVIDIA RTX 4090)
| Model | RTF (FP16) | RTF (FP32) | Speed (1hr audio) |
|---|---|---|---|
| large-v3 | 0.15x | 0.45x | ~9 minutes |
| large-v2 | 0.15x | 0.45x | ~9 minutes |
| medium | 0.08x | 0.25x | ~5 minutes |
| small | 0.04x | 0.12x | ~2.5 minutes |
Conclusão: large-v3 mantém a mesma velocidade que large-v2 (0,15× RTF na GPU).
Desempenho em CPU (Intel i7-12700K)
| Model | RTF | Speed (1hr audio) |
|---|---|---|
| large-v3 | 8.5x | ~8.5 hours |
| large-v2 | 8.5x | ~8.5 hours |
| medium | 4.2x | ~4.2 hours |
| small | 2.1x | ~2.1 hours |
Nota: o processamento em CPU é muito mais lento. Recomenda-se vivamente uma GPU.
Requisitos de recursos
Utilização de memória
| Model | VRAM (FP16) | VRAM (FP32) | RAM (CPU) |
|---|---|---|---|
| large-v3 | ~10 GB | ~20 GB | ~16 GB |
| large-v2 | ~10 GB | ~20 GB | ~16 GB |
| medium | ~5 GB | ~10 GB | ~8 GB |
| small | ~2 GB | ~4 GB | ~4 GB |
Requisitos de armazenamento
| Model | Model File Size | Disk Space |
|---|---|---|
| large-v3 | ~3.0 GB | ~3.0 GB |
| large-v2 | ~3.0 GB | ~3.0 GB |
| medium | ~1.5 GB | ~1.5 GB |
| small | ~500 MB | ~500 MB |
Comparação de desempenho: large-v3 vs large-v2
Melhorias de precisão
| Metric | large-v2 | large-v3 | Improvement |
|---|---|---|---|
| Clean Audio WER | 2.4% | 2.1% | +12.5% |
| Real-World WER | 4.3% | 3.8% | +12% |
| Noisy Audio WER | 5.9% | 5.2% | +12% |
| Phone Call WER | 6.8% | 6.1% | +10% |
| Accented Speech WER | 5.4% | 4.8% | +11% |
Resumo: large-v3 mostra melhoria de precisão estável de 10–12% em todas as condições.
Comparação de velocidade
| Metric | large-v2 | large-v3 | Difference |
|---|---|---|---|
| GPU RTF (FP16) | 0.15x | 0.15x | Same |
| CPU RTF | 8.5x | 8.5x | Same |
| Memory Usage | ~10 GB | ~10 GB | Same |
Resumo: large-v3 mantém a mesma velocidade e o mesmo uso de recursos que large-v2.
Metodologia dos benchmarks
Conjuntos de teste
Os benchmarks acima baseiam-se em:
- LibriSpeech: inglês limpo e ruidoso
- Common Voice: áudio multilingue do mundo real
- TED Talks: fala natural com sotaques
- Phone Call Datasets: áudio de telefonia
- Real-World Recordings: podcasts, reuniões, entrevistas
Métricas de avaliação
- WER (Word Error Rate): métrica principal de precisão
- RTF (Real-Time Factor): métrica de velocidade
- Uso de memória: requisitos de VRAM/RAM
- Latência: tempo até à primeira palavra (streaming)
Condições de teste
- Hardware: NVIDIA RTX 4090 (GPU), Intel i7-12700K (CPU)
- Software: Whisper v20231117, PyTorch 2.1, CUDA 12.1
- Definições:
temperature=0.0,best_of=5,beam_size=5 - Áudio: 16 kHz mono, formato WAV
Perspetivas de desempenho no mundo real
Quando usar large-v3
Escolha large-v3 quando:
- ✅ a precisão máxima for crítica
- ✅ tiver GPU disponível
- ✅ o tempo de processamento não for a principal restrição
- ✅ trabalhar com áudio ruidoso ou com sotaque
- ✅ precisar de transcrição multilingue
- ✅ os casos de uso forem profissionais ou comerciais
Quando usar outros modelos
Escolha large-v2 quando:
- ✅ precisar de desempenho semelhante ao v3 mas preferir estabilidade comprovada
- ✅ a sua infraestrutura já estiver otimizada para v2
Escolha medium quando:
- ✅ precisar de maior velocidade de processamento
- ✅ os requisitos de precisão forem moderados
- ✅ a memória da GPU for limitada (~5 GB disponíveis)
Escolha small quando:
- ✅ a velocidade for crítica
- ✅ os requisitos de precisão forem mais baixos
- ✅ os recursos computacionais forem limitados
Dicas de otimização do desempenho
Para precisão máxima
import whisper
model = whisper.load_model("large-v3")
result = model.transcribe(
audio,
language="en", # Specify if known
temperature=0.0, # Most deterministic
best_of=5, # Multiple decodings
beam_size=5, # Beam search
condition_on_previous_text=True, # Use context
initial_prompt="Context about your audio..."
)
WER esperado: 2,1–3,8% conforme a qualidade do áudio
Para equilibrar velocidade e precisão
model = whisper.load_model("large-v3")
result = model.transcribe(
audio,
language="en",
temperature=0.0,
best_of=1, # Single decoding (faster)
beam_size=5,
condition_on_previous_text=True
)
WER esperado: 2,3–4,0% (ligeiramente maior mas ~5× mais rápido)
Resumo dos resultados dos benchmarks
Resumo de precisão
| Condition | large-v3 WER | Rank |
|---|---|---|
| Clean Audio | 2.1% | 🥇 Best |
| Real-World | 3.8% | 🥇 Best |
| Noisy Audio | 5.2% | 🥇 Best |
| Phone Calls | 6.1% | 🥇 Best |
| Accented Speech | 4.8% | 🥇 Best |
Resumo de velocidade
| Hardware | large-v3 RTF | Status |
|---|---|---|
| GPU (RTX 4090) | 0.15x | ⚡ Very Fast |
| CPU (i7-12700K) | 8.5x | 🐌 Slow |
Resumo de recursos
| Resource | Requirement | Status |
|---|---|---|
| VRAM (FP16) | ~10 GB | 💾 High |
| Model Size | ~3 GB | 💾 Moderate |
| Processing Speed | 0.15x RTF | ⚡ Fast |
Comparação com outros modelos
large-v3 vs APIs comerciais
| Service | WER (Clean) | WER (Noisy) | Cost |
|---|---|---|---|
| Whisper large-v3 | 2.1% | 5.2% | Free (self-hosted) |
| Google Speech-to-Text | 2.3% | 5.8% | $0.006/min |
| Deepgram | 2.5% | 6.1% | $0.0043/min |
| AssemblyAI | 2.6% | 6.3% | $0.00025/min |
Conclusão: large-v3 iguala ou supera a precisão das APIs comerciais e é gratuito (self-hosted).
Recomendações práticas
Para produção
- Use large-v3 para precisão máxima
- Implemente em GPU para velocidade razoável
- Use definições otimizadas (
temperature=0.0,best_of=5) - Divida áudio longo para melhor precisão
- Indique a língua quando souber
Para desenvolvimento e testes
- Use o modelo medium para iterar mais depressa
- Mude para large-v3 para validação final de precisão
- Teste com áudio representativo do seu caso de uso
Para implementações com foco em custo
- Use large-v3 (gratuito, self-hosted)
- Otimize processamento em lote para maximizar a GPU
- Considere medium se o custo da GPU for proibitivo
Limitações e considerações
Limitações conhecidas
- Não é tempo real: processamento orientado a lotes
- Muita memória: requer ~10 GB de VRAM
- Dependência de GPU: CPU muito lenta
- Sem streaming: é preciso processar chunks completos
- Sem diarização: requer ferramentas à parte
Quando large-v3 pode não ser o melhor
- Transcrição em tempo real: use ASR em streaming
- Latência muito baixa: modelos especializados
- GPU limitada: modelos medium ou small
- Casos simples: modelos menores podem bastar
Conclusão
Whisper large-v3 representa o estado da arte em reconhecimento de voz open source:
- ✅ Melhor precisão: 2,1% WER em áudio limpo
- ✅ Melhorias consistentes: 10–12% melhor que large-v2
- ✅ Mesma velocidade: sem penalização face ao large-v2
- ✅ Excelência multilingue: bom desempenho em 99+ línguas
- ✅ Robustez ao ruído: excelente em condições reais
Ideias-chave:
- large-v3 é a melhor escolha para precisão máxima
- GPU é essencial para velocidade razoável
- Melhoria de precisão de 10–12% sobre large-v2 em todas as condições
- Gratuito e open source com precisão de nível de API comercial
- Ideal para: transcrição profissional, conteúdo multilingue, áudio ruidoso
Na maioria dos casos de produção que exigem alta precisão, Whisper large-v3 é a escolha recomendada.
Para transcrição pronta para produção com desempenho otimizado do Whisper large-v3, plataformas como SayToWords oferecem infraestrutura gerida e otimização automática para os melhores resultados.
