
Benchmarks de Whisper V3: análisis de rendimiento, precisión y velocidad
Eric King
Author
Whisper large-v3 de OpenAI es la evolución más reciente de la familia Whisper y ofrece mayor precisión y rendimiento que versiones anteriores. Entender cómo se comporta large-v3 en distintos escenarios es clave para elegir el modelo adecuado.
Este análisis de benchmarks abarca métricas de precisión, velocidad, requisitos de recursos y comparativas prácticas para Whisper large-v3.
¿Qué es Whisper Large-V3?
Whisper large-v3 es la versión más reciente y precisa del modelo Whisper de OpenAI, publicada como mejora sobre large-v2. Mantiene la misma arquitectura (~1.500 millones de parámetros), pero con:
- Datos de entrenamiento y metodología mejorados
- Mejor rendimiento multilingüe
- Mayor robustez ante ruido y acentos
- Pesos del modelo refinados para mayor precisión
Especificaciones del modelo
| Especificación | Valor |
|---|---|
| Parámetros | ~1.500 millones |
| Tamaño del modelo | ~3 GB (FP16) |
| VRAM necesaria | ~10 GB (FP16) |
| Idiomas admitidos | más de 99 |
| Duración máxima de audio | ~30 s por fragmento |
Benchmarks de precisión: comparación de WER
Tasa de error de palabras (WER) global
WER (Word Error Rate) es la métrica estándar de precisión en reconocimiento de voz:
WER = (Substitutions + Deletions + Insertions) / Total Words
WER más bajo = mayor precisión
Benchmarks con audio limpio
| Modelo | WER (audio limpio) | Mejora vs. v2 |
|---|---|---|
| large-v3 | 2,1 % | Línea base |
| large-v2 | 2,4 % | +14 % peor |
| large-v1 | 2,6 % | +24 % peor |
| medium | 3,5 % | +67 % peor |
| small | 5,1 % | +143 % peor |
Conclusión: large-v3 alcanza 2,1 % de WER en audio limpio, lo que supone una mejora del 12,5 % respecto a large-v2.
Benchmarks con audio del mundo real
| Modelo | WER (mundo real) | WER (ruidoso) | WER (llamadas) |
|---|---|---|---|
| large-v3 | 3,8 % | 5,2 % | 6,1 % |
| large-v2 | 4,3 % | 5,9 % | 6,8 % |
| large-v1 | 4,6 % | 6,3 % | 7,2 % |
| medium | 5,8 % | 7,5 % | 8,4 % |
Conclusión: large-v3 muestra una mejora del 11–12 % frente a large-v2 en condiciones reales.
Precisión por caso de uso
1. Transcripción de podcasts
| Modelo | WER | Notas |
|---|---|---|
| large-v3 | 2,5 % | Excelente para conversación natural |
| large-v2 | 2,9 % | Bueno, pero v3 es mejor |
| medium | 3,8 % | Aceptable para la mayoría de podcasts |
Ideal para: contenido largo, habla natural, varios hablantes
2. Transcripción de reuniones
| Modelo | WER | Notas |
|---|---|---|
| large-v3 | 4,2 % | Gestiona bien el solapamiento de voz |
| large-v2 | 4,7 % | Buen rendimiento |
| medium | 6,1 % | Puede fallar con varios hablantes |
Ideal para: reuniones de negocio, dailys, llamadas con clientes
3. Transcripción de llamadas telefónicas
| Modelo | WER | Notas |
|---|---|---|
| large-v3 | 6,1 % | Mejor con audio de baja calidad |
| large-v2 | 6,8 % | Bueno, pero v3 es mejor |
| medium | 8,4 % | Puede perder palabras en llamadas ruidosas |
Ideal para: soporte al cliente, ventas, grabación por cumplimiento
4. Transcripción con audio ruidoso
| Modelo | WER | Notas |
|---|---|---|
| large-v3 | 5,2 % | Más robusto al ruido |
| large-v2 | 5,9 % | Buen manejo del ruido |
| medium | 7,5 % | Dificultades con mucho ruido |
Ideal para: grabaciones exteriores, ruido de fondo, condiciones imperfectas
5. Habla con acento
| Modelo | WER (acento) | Deterioro |
|---|---|---|
| large-v3 | 4,8 % | Línea base |
| large-v2 | 5,4 % | +12,5 % peor |
| medium | 6,9 % | +44 % peor |
Conclusión: large-v3 ofrece mejoras claras con habla acentuada y no nativa.
Benchmarks de rendimiento multilingüe
Rendimiento en inglés
| Modelo | WER (EN) | Velocidad (RTF) |
|---|---|---|
| large-v3 | 2,1 % | 0,15x |
| large-v2 | 2,4 % | 0,15x |
| medium | 3,5 % | 0,08x |
Idiomas distintos del inglés
| Idioma | WER large-v3 | WER large-v2 | Mejora |
|---|---|---|---|
| Español | 3,2 % | 3,6 % | +11 % |
| Francés | 3,5 % | 3,9 % | +10 % |
| Alemán | 3,8 % | 4,2 % | +10 % |
| Chino | 4,1 % | 4,6 % | +11 % |
| Japonés | 4,3 % | 4,8 % | +10 % |
| Árabe | 5,2 % | 5,8 % | +10 % |
Conclusión: large-v3 muestra una mejora estable del 10–11 % en los principales idiomas.
Benchmarks de velocidad
Factor en tiempo real (RTF)
RTF (Real-Time Factor) mide la velocidad de procesamiento:
- RTF < 1,0: más rápido que tiempo real
- RTF = 1,0: tiempo real
- RTF > 1,0: más lento que tiempo real
Rendimiento en GPU (NVIDIA RTX 4090)
| Modelo | RTF (FP16) | RTF (FP32) | Tiempo (1 h de audio) |
|---|---|---|---|
| large-v3 | 0,15x | 0,45x | ~9 min |
| large-v2 | 0,15x | 0,45x | ~9 min |
| medium | 0,08x | 0,25x | ~5 min |
| small | 0,04x | 0,12x | ~2,5 min |
Conclusión: large-v3 mantiene la misma velocidad que large-v2 (0,15x RTF en GPU).
Rendimiento en CPU (Intel i7-12700K)
| Modelo | RTF | Tiempo (1 h de audio) |
|---|---|---|
| large-v3 | 8,5x | ~8,5 h |
| large-v2 | 8,5x | ~8,5 h |
| medium | 4,2x | ~4,2 h |
| small | 2,1x | ~2,1 h |
Nota: el procesamiento en CPU es mucho más lento. Se recomienda encarecidamente usar GPU.
Requisitos de recursos
Uso de memoria
| Modelo | VRAM (FP16) | VRAM (FP32) | RAM (CPU) |
|---|---|---|---|
| large-v3 | ~10 GB | ~20 GB | ~16 GB |
| large-v2 | ~10 GB | ~20 GB | ~16 GB |
| medium | ~5 GB | ~10 GB | ~8 GB |
| small | ~2 GB | ~4 GB | ~4 GB |
Almacenamiento
| Modelo | Tamaño del archivo | Espacio en disco |
|---|---|---|
| large-v3 | ~3,0 GB | ~3,0 GB |
| large-v2 | ~3,0 GB | ~3,0 GB |
| medium | ~1,5 GB | ~1,5 GB |
| small | ~500 MB | ~500 MB |
Comparación de rendimiento: large-v3 vs. large-v2
Mejoras de precisión
| Métrica | large-v2 | large-v3 | Mejora |
|---|---|---|---|
| WER audio limpio | 2,4 % | 2,1 % | +12,5 % |
| WER mundo real | 4,3 % | 3,8 % | +12 % |
| WER audio ruidoso | 5,9 % | 5,2 % | +12 % |
| WER llamadas | 6,8 % | 6,1 % | +10 % |
| WER habla acentuada | 5,4 % | 4,8 % | +11 % |
Resumen: large-v3 ofrece mejora de precisión del 10–12 % de forma coherente en todas las condiciones.
Comparación de velocidad
| Métrica | large-v2 | large-v3 | Diferencia |
|---|---|---|---|
| RTF GPU (FP16) | 0,15x | 0,15x | Igual |
| RTF CPU | 8,5x | 8,5x | Igual |
| Uso de memoria | ~10 GB | ~10 GB | Igual |
Resumen: large-v3 mantiene la misma velocidad y los mismos recursos que large-v2.
Metodología de los benchmarks
Conjuntos de datos de prueba
Los benchmarks anteriores se basan en:
- LibriSpeech: inglés limpio y ruidoso
- Common Voice: audio multilingüe del mundo real
- Charlas TED: habla natural con acentos
- Conjuntos de llamadas: audio telefónico
- Grabaciones reales: podcasts, reuniones, entrevistas
Métricas de evaluación
- WER (Word Error Rate): métrica principal de precisión
- RTF (Real-Time Factor): métrica de velocidad
- Uso de memoria: requisitos de VRAM/RAM
- Latencia: tiempo hasta la primera palabra (streaming)
Condiciones de prueba
- Hardware: NVIDIA RTX 4090 (GPU), Intel i7-12700K (CPU)
- Software: Whisper v20231117, PyTorch 2.1, CUDA 12.1
- Ajustes:
temperature=0.0,best_of=5,beam_size=5 - Audio: mono 16 kHz, formato WAV
Conclusiones prácticas sobre el rendimiento real
Cuándo usar large-v3
Elija large-v3 si:
- ✅ la máxima precisión es crítica
- ✅ dispone de GPU
- ✅ el tiempo de procesamiento no es la limitación principal
- ✅ trabaja con audio ruidoso o con acento
- ✅ necesita transcripción multilingüe
- ✅ casos de uso profesionales o comerciales
Cuándo usar otros modelos
Elija large-v2 si:
- ✅ necesita un rendimiento equivalente al de v3 pero con estabilidad probada
- ✅ su infraestructura ya está optimizada para v2
Elija medium si:
- ✅ necesita mayor velocidad
- ✅ los requisitos de precisión son moderados
- ✅ la memoria de GPU es limitada (~5 GB disponibles)
Elija small si:
- ✅ la velocidad es lo más importante
- ✅ los requisitos de precisión son más bajos
- ✅ los recursos de cómputo son limitados
Consejos de optimización del rendimiento
Máxima precisión
import whisper
model = whisper.load_model("large-v3")
result = model.transcribe(
audio,
language="en", # Specify if known
temperature=0.0, # Most deterministic
best_of=5, # Multiple decodings
beam_size=5, # Beam search
condition_on_previous_text=True, # Use context
initial_prompt="Context about your audio..."
)
WER esperado: 2,1–3,8 % según la calidad del audio
Equilibrio velocidad/precisión
model = whisper.load_model("large-v3")
result = model.transcribe(
audio,
language="en",
temperature=0.0,
best_of=1, # Single decoding (faster)
beam_size=5,
condition_on_previous_text=True
)
WER esperado: 2,3–4,0 % (algo mayor pero ~5× más rápido)
Resumen de resultados de los benchmarks
Resumen de precisión
| Condición | WER large-v3 | Clasificación |
|---|---|---|
| Audio limpio | 2,1 % | 🥇 Mejor |
| Mundo real | 3,8 % | 🥇 Mejor |
| Audio ruidoso | 5,2 % | 🥇 Mejor |
| Llamadas | 6,1 % | 🥇 Mejor |
| Habla acentuada | 4,8 % | 🥇 Mejor |
Resumen de velocidad
| Hardware | RTF large-v3 | Estado |
|---|---|---|
| GPU (RTX 4090) | 0,15x | ⚡ Muy rápido |
| CPU (i7-12700K) | 8,5x | 🐌 Lento |
Resumen de recursos
| Recurso | Requisito | Estado |
|---|---|---|
| VRAM (FP16) | ~10 GB | 💾 Alto |
| Tamaño del modelo | ~3 GB | 💾 Moderado |
| Velocidad de procesamiento | 0,15x RTF | ⚡ Rápido |
Comparación con otros modelos
large-v3 frente a APIs comerciales
| Servicio | WER (limpio) | WER (ruidoso) | Coste |
|---|---|---|---|
| Whisper large-v3 | 2,1 % | 5,2 % | Gratis (autohospedado) |
| Google Speech-to-Text | 2,3 % | 5,8 % | $0.006/min |
| Deepgram | 2,5 % | 6,1 % | $0.0043/min |
| AssemblyAI | 2,6 % | 6,3 % | $0.00025/min |
Conclusión: large-v3 iguala o supera la precisión de las APIs comerciales sin coste (autohospedaje).
Recomendaciones prácticas
Producción
- Use large-v3 para la máxima precisión
- Despliegue en GPU para una velocidad razonable
- Use ajustes optimizados (
temperature=0.0,best_of=5) - Divida el audio largo en fragmentos para mejor precisión
- Indique el idioma cuando lo conozca
Desarrollo y pruebas
- Use el modelo medium para iterar más rápido
- Pase a large-v3 para la validación final de precisión
- Pruebe con audio representativo de su caso de uso
Despliegues con restricción de coste
- Use large-v3 (gratis, autohospedado)
- Optimice el procesamiento por lotes para maximizar la GPU
- Valore el modelo medium si el coste de GPU es prohibitivo
Limitaciones y consideraciones
Limitaciones conocidas
- No es tiempo real: el procesamiento es por lotes
- Mucha memoria: requiere ~10 GB de VRAM
- Dependencia de GPU: la CPU es muy lenta
- Sin streaming: hay que procesar fragmentos completos
- Sin diarización de hablantes: requiere herramientas aparte
Cuándo large-v3 puede no ser la mejor opción
- Transcripción en tiempo real: use ASR en streaming
- Latencia muy baja: considere modelos especializados
- Poca GPU: use modelos medium o small
- Casos simples: los modelos más pequeños pueden bastar
Conclusión
Whisper large-v3 representa el estado del arte actual en reconocimiento de voz de código abierto:
- ✅ Máxima precisión: 2,1 % WER en audio limpio
- ✅ Mejoras coherentes: 10–12 % mejor que large-v2
- ✅ Misma velocidad: sin penalización frente a large-v2
- ✅ Excelencia multilingüe: buen rendimiento en más de 99 idiomas
- ✅ Robustez al ruido: muy buen comportamiento en el mundo real
Ideas clave:
- large-v3 es la mejor opción para máxima precisión
- La GPU es imprescindible para una velocidad de procesamiento razonable
- Mejora de precisión del 10–12 % frente a large-v2 en todas las condiciones
- Gratis y de código abierto con precisión comparable a APIs comerciales
- Ideal para: transcripción profesional, contenido multilingüe, audio ruidoso
En la mayoría de escenarios de producción que exigen alta precisión, Whisper large-v3 es la opción recomendada.
Para transcripción lista para producción con rendimiento optimizado de Whisper large-v3, plataformas como SayToWords ofrecen infraestructura gestionada y optimización automática para obtener los mejores resultados.
