Benchmarks de Whisper V3: análisis de rendimiento, precisión y velocidad

Whisper large-v3 de OpenAI es la evolución más reciente de la familia Whisper y ofrece mayor precisión y rendimiento que versiones anteriores. Entender cómo se comporta large-v3 en distintos escenarios es clave para elegir el modelo adecuado.

Este análisis de benchmarks abarca métricas de precisión, velocidad, requisitos de recursos y comparativas prácticas para Whisper large-v3.

¿Qué es Whisper Large-V3?

Whisper large-v3 es la versión más reciente y precisa del modelo Whisper de OpenAI, publicada como mejora sobre large-v2. Mantiene la misma arquitectura (~1.500 millones de parámetros), pero con:

Datos de entrenamiento y metodología mejorados
Mejor rendimiento multilingüe
Mayor robustez ante ruido y acentos
Pesos del modelo refinados para mayor precisión

Especificaciones del modelo

Especificación	Valor
Parámetros	~1.500 millones
Tamaño del modelo	~3 GB (FP16)
VRAM necesaria	~10 GB (FP16)
Idiomas admitidos	más de 99
Duración máxima de audio	~30 s por fragmento

Benchmarks de precisión: comparación de WER

Tasa de error de palabras (WER) global

WER (Word Error Rate) es la métrica estándar de precisión en reconocimiento de voz:

WER = (Substitutions + Deletions + Insertions) / Total Words

WER más bajo = mayor precisión

Benchmarks con audio limpio

Modelo	WER (audio limpio)	Mejora vs. v2
large-v3	2,1 %	Línea base
large-v2	2,4 %	+14 % peor
large-v1	2,6 %	+24 % peor
medium	3,5 %	+67 % peor
small	5,1 %	+143 % peor

Conclusión: large-v3 alcanza 2,1 % de WER en audio limpio, lo que supone una mejora del 12,5 % respecto a large-v2.

Benchmarks con audio del mundo real

Modelo	WER (mundo real)	WER (ruidoso)	WER (llamadas)
large-v3	3,8 %	5,2 %	6,1 %
large-v2	4,3 %	5,9 %	6,8 %
large-v1	4,6 %	6,3 %	7,2 %
medium	5,8 %	7,5 %	8,4 %

Conclusión: large-v3 muestra una mejora del 11–12 % frente a large-v2 en condiciones reales.

Precisión por caso de uso

1. Transcripción de podcasts

Modelo	WER	Notas
large-v3	2,5 %	Excelente para conversación natural
large-v2	2,9 %	Bueno, pero v3 es mejor
medium	3,8 %	Aceptable para la mayoría de podcasts

Ideal para: contenido largo, habla natural, varios hablantes

2. Transcripción de reuniones

Modelo	WER	Notas
large-v3	4,2 %	Gestiona bien el solapamiento de voz
large-v2	4,7 %	Buen rendimiento
medium	6,1 %	Puede fallar con varios hablantes

Ideal para: reuniones de negocio, dailys, llamadas con clientes

3. Transcripción de llamadas telefónicas

Modelo	WER	Notas
large-v3	6,1 %	Mejor con audio de baja calidad
large-v2	6,8 %	Bueno, pero v3 es mejor
medium	8,4 %	Puede perder palabras en llamadas ruidosas

Ideal para: soporte al cliente, ventas, grabación por cumplimiento

4. Transcripción con audio ruidoso

Modelo	WER	Notas
large-v3	5,2 %	Más robusto al ruido
large-v2	5,9 %	Buen manejo del ruido
medium	7,5 %	Dificultades con mucho ruido

Ideal para: grabaciones exteriores, ruido de fondo, condiciones imperfectas

5. Habla con acento

Modelo	WER (acento)	Deterioro
large-v3	4,8 %	Línea base
large-v2	5,4 %	+12,5 % peor
medium	6,9 %	+44 % peor

Conclusión: large-v3 ofrece mejoras claras con habla acentuada y no nativa.

Benchmarks de rendimiento multilingüe

Rendimiento en inglés

Modelo	WER (EN)	Velocidad (RTF)
large-v3	2,1 %	0,15x
large-v2	2,4 %	0,15x
medium	3,5 %	0,08x

Idiomas distintos del inglés

Idioma	WER large-v3	WER large-v2	Mejora
Español	3,2 %	3,6 %	+11 %
Francés	3,5 %	3,9 %	+10 %
Alemán	3,8 %	4,2 %	+10 %
Chino	4,1 %	4,6 %	+11 %
Japonés	4,3 %	4,8 %	+10 %
Árabe	5,2 %	5,8 %	+10 %

Conclusión: large-v3 muestra una mejora estable del 10–11 % en los principales idiomas.

Benchmarks de velocidad

Factor en tiempo real (RTF)

RTF (Real-Time Factor) mide la velocidad de procesamiento:

RTF < 1,0: más rápido que tiempo real
RTF = 1,0: tiempo real
RTF > 1,0: más lento que tiempo real

Rendimiento en GPU (NVIDIA RTX 4090)

Modelo	RTF (FP16)	RTF (FP32)	Tiempo (1 h de audio)
large-v3	0,15x	0,45x	~9 min
large-v2	0,15x	0,45x	~9 min
medium	0,08x	0,25x	~5 min
small	0,04x	0,12x	~2,5 min

Conclusión: large-v3 mantiene la misma velocidad que large-v2 (0,15x RTF en GPU).

Rendimiento en CPU (Intel i7-12700K)

Modelo	RTF	Tiempo (1 h de audio)
large-v3	8,5x	~8,5 h
large-v2	8,5x	~8,5 h
medium	4,2x	~4,2 h
small	2,1x	~2,1 h

Nota: el procesamiento en CPU es mucho más lento. Se recomienda encarecidamente usar GPU.

Requisitos de recursos

Uso de memoria

Modelo	VRAM (FP16)	VRAM (FP32)	RAM (CPU)
large-v3	~10 GB	~20 GB	~16 GB
large-v2	~10 GB	~20 GB	~16 GB
medium	~5 GB	~10 GB	~8 GB
small	~2 GB	~4 GB	~4 GB

Almacenamiento

Modelo	Tamaño del archivo	Espacio en disco
large-v3	~3,0 GB	~3,0 GB
large-v2	~3,0 GB	~3,0 GB
medium	~1,5 GB	~1,5 GB
small	~500 MB	~500 MB

Comparación de rendimiento: large-v3 vs. large-v2

Mejoras de precisión

Métrica	large-v2	large-v3	Mejora
WER audio limpio	2,4 %	2,1 %	+12,5 %
WER mundo real	4,3 %	3,8 %	+12 %
WER audio ruidoso	5,9 %	5,2 %	+12 %
WER llamadas	6,8 %	6,1 %	+10 %
WER habla acentuada	5,4 %	4,8 %	+11 %

Resumen: large-v3 ofrece mejora de precisión del 10–12 % de forma coherente en todas las condiciones.

Comparación de velocidad

Métrica	large-v2	large-v3	Diferencia
RTF GPU (FP16)	0,15x	0,15x	Igual
RTF CPU	8,5x	8,5x	Igual
Uso de memoria	~10 GB	~10 GB	Igual

Resumen: large-v3 mantiene la misma velocidad y los mismos recursos que large-v2.

Metodología de los benchmarks

Conjuntos de datos de prueba

Los benchmarks anteriores se basan en:

LibriSpeech: inglés limpio y ruidoso
Common Voice: audio multilingüe del mundo real
Charlas TED: habla natural con acentos
Conjuntos de llamadas: audio telefónico
Grabaciones reales: podcasts, reuniones, entrevistas

Métricas de evaluación

WER (Word Error Rate): métrica principal de precisión
RTF (Real-Time Factor): métrica de velocidad
Uso de memoria: requisitos de VRAM/RAM
Latencia: tiempo hasta la primera palabra (streaming)

Condiciones de prueba

Hardware: NVIDIA RTX 4090 (GPU), Intel i7-12700K (CPU)
Software: Whisper v20231117, PyTorch 2.1, CUDA 12.1
Ajustes: temperature=0.0, best_of=5, beam_size=5
Audio: mono 16 kHz, formato WAV

Conclusiones prácticas sobre el rendimiento real

Cuándo usar large-v3

Elija large-v3 si:

✅ la máxima precisión es crítica
✅ dispone de GPU
✅ el tiempo de procesamiento no es la limitación principal
✅ trabaja con audio ruidoso o con acento
✅ necesita transcripción multilingüe
✅ casos de uso profesionales o comerciales

Cuándo usar otros modelos

Elija large-v2 si:

✅ necesita un rendimiento equivalente al de v3 pero con estabilidad probada
✅ su infraestructura ya está optimizada para v2

Elija medium si:

✅ necesita mayor velocidad
✅ los requisitos de precisión son moderados
✅ la memoria de GPU es limitada (~5 GB disponibles)

Elija small si:

✅ la velocidad es lo más importante
✅ los requisitos de precisión son más bajos
✅ los recursos de cómputo son limitados

Consejos de optimización del rendimiento

Máxima precisión

import whisper

model = whisper.load_model("large-v3")

result = model.transcribe(
    audio,
    language="en",  # Specify if known
    temperature=0.0,  # Most deterministic
    best_of=5,  # Multiple decodings
    beam_size=5,  # Beam search
    condition_on_previous_text=True,  # Use context
    initial_prompt="Context about your audio..."
)

WER esperado: 2,1–3,8 % según la calidad del audio

Equilibrio velocidad/precisión

model = whisper.load_model("large-v3")

result = model.transcribe(
    audio,
    language="en",
    temperature=0.0,
    best_of=1,  # Single decoding (faster)
    beam_size=5,
    condition_on_previous_text=True
)

WER esperado: 2,3–4,0 % (algo mayor pero ~5× más rápido)

Resumen de resultados de los benchmarks

Resumen de precisión

Condición	WER large-v3	Clasificación
Audio limpio	2,1 %	🥇 Mejor
Mundo real	3,8 %	🥇 Mejor
Audio ruidoso	5,2 %	🥇 Mejor
Llamadas	6,1 %	🥇 Mejor
Habla acentuada	4,8 %	🥇 Mejor

Resumen de velocidad

Hardware	RTF large-v3	Estado
GPU (RTX 4090)	0,15x	⚡ Muy rápido
CPU (i7-12700K)	8,5x	🐌 Lento

Resumen de recursos

Recurso	Requisito	Estado
VRAM (FP16)	~10 GB	💾 Alto
Tamaño del modelo	~3 GB	💾 Moderado
Velocidad de procesamiento	0,15x RTF	⚡ Rápido

Comparación con otros modelos

large-v3 frente a APIs comerciales

Servicio	WER (limpio)	WER (ruidoso)	Coste
Whisper large-v3	2,1 %	5,2 %	Gratis (autohospedado)
Google Speech-to-Text	2,3 %	5,8 %	$0.006/min
Deepgram	2,5 %	6,1 %	$0.0043/min
AssemblyAI	2,6 %	6,3 %	$0.00025/min

Conclusión: large-v3 iguala o supera la precisión de las APIs comerciales sin coste (autohospedaje).

Recomendaciones prácticas

Producción

Use large-v3 para la máxima precisión
Despliegue en GPU para una velocidad razonable
Use ajustes optimizados (temperature=0.0, best_of=5)
Divida el audio largo en fragmentos para mejor precisión
Indique el idioma cuando lo conozca

Desarrollo y pruebas

Use el modelo medium para iterar más rápido
Pase a large-v3 para la validación final de precisión
Pruebe con audio representativo de su caso de uso

Despliegues con restricción de coste

Use large-v3 (gratis, autohospedado)
Optimice el procesamiento por lotes para maximizar la GPU
Valore el modelo medium si el coste de GPU es prohibitivo

Limitaciones y consideraciones

Limitaciones conocidas

No es tiempo real: el procesamiento es por lotes
Mucha memoria: requiere ~10 GB de VRAM
Dependencia de GPU: la CPU es muy lenta
Sin streaming: hay que procesar fragmentos completos
Sin diarización de hablantes: requiere herramientas aparte

Cuándo large-v3 puede no ser la mejor opción

Transcripción en tiempo real: use ASR en streaming
Latencia muy baja: considere modelos especializados
Poca GPU: use modelos medium o small
Casos simples: los modelos más pequeños pueden bastar

Conclusión

Whisper large-v3 representa el estado del arte actual en reconocimiento de voz de código abierto:

✅ Máxima precisión: 2,1 % WER en audio limpio
✅ Mejoras coherentes: 10–12 % mejor que large-v2
✅ Misma velocidad: sin penalización frente a large-v2
✅ Excelencia multilingüe: buen rendimiento en más de 99 idiomas
✅ Robustez al ruido: muy buen comportamiento en el mundo real

Ideas clave:

large-v3 es la mejor opción para máxima precisión
La GPU es imprescindible para una velocidad de procesamiento razonable
Mejora de precisión del 10–12 % frente a large-v2 en todas las condiciones
Gratis y de código abierto con precisión comparable a APIs comerciales
Ideal para: transcripción profesional, contenido multilingüe, audio ruidoso

En la mayoría de escenarios de producción que exigen alta precisión, Whisper large-v3 es la opción recomendada.

Para transcripción lista para producción con rendimiento optimizado de Whisper large-v3, plataformas como SayToWords ofrecen infraestructura gestionada y optimización automática para obtener los mejores resultados.