Benchmarks de Whisper V3: análisis de rendimiento, precisión y velocidad

Benchmarks de Whisper V3: análisis de rendimiento, precisión y velocidad

Eric King

Eric King

Author


Whisper large-v3 de OpenAI es la evolución más reciente de la familia Whisper y ofrece mayor precisión y rendimiento que versiones anteriores. Entender cómo se comporta large-v3 en distintos escenarios es clave para elegir el modelo adecuado.
Este análisis de benchmarks abarca métricas de precisión, velocidad, requisitos de recursos y comparativas prácticas para Whisper large-v3.

¿Qué es Whisper Large-V3?

Whisper large-v3 es la versión más reciente y precisa del modelo Whisper de OpenAI, publicada como mejora sobre large-v2. Mantiene la misma arquitectura (~1.500 millones de parámetros), pero con:
  • Datos de entrenamiento y metodología mejorados
  • Mejor rendimiento multilingüe
  • Mayor robustez ante ruido y acentos
  • Pesos del modelo refinados para mayor precisión

Especificaciones del modelo

EspecificaciónValor
Parámetros~1.500 millones
Tamaño del modelo~3 GB (FP16)
VRAM necesaria~10 GB (FP16)
Idiomas admitidosmás de 99
Duración máxima de audio~30 s por fragmento

Benchmarks de precisión: comparación de WER

Tasa de error de palabras (WER) global

WER (Word Error Rate) es la métrica estándar de precisión en reconocimiento de voz:
WER = (Substitutions + Deletions + Insertions) / Total Words
WER más bajo = mayor precisión

Benchmarks con audio limpio

ModeloWER (audio limpio)Mejora vs. v2
large-v32,1 %Línea base
large-v22,4 %+14 % peor
large-v12,6 %+24 % peor
medium3,5 %+67 % peor
small5,1 %+143 % peor
Conclusión: large-v3 alcanza 2,1 % de WER en audio limpio, lo que supone una mejora del 12,5 % respecto a large-v2.

Benchmarks con audio del mundo real

ModeloWER (mundo real)WER (ruidoso)WER (llamadas)
large-v33,8 %5,2 %6,1 %
large-v24,3 %5,9 %6,8 %
large-v14,6 %6,3 %7,2 %
medium5,8 %7,5 %8,4 %
Conclusión: large-v3 muestra una mejora del 11–12 % frente a large-v2 en condiciones reales.

Precisión por caso de uso

1. Transcripción de podcasts

ModeloWERNotas
large-v32,5 %Excelente para conversación natural
large-v22,9 %Bueno, pero v3 es mejor
medium3,8 %Aceptable para la mayoría de podcasts
Ideal para: contenido largo, habla natural, varios hablantes

2. Transcripción de reuniones

ModeloWERNotas
large-v34,2 %Gestiona bien el solapamiento de voz
large-v24,7 %Buen rendimiento
medium6,1 %Puede fallar con varios hablantes
Ideal para: reuniones de negocio, dailys, llamadas con clientes

3. Transcripción de llamadas telefónicas

ModeloWERNotas
large-v36,1 %Mejor con audio de baja calidad
large-v26,8 %Bueno, pero v3 es mejor
medium8,4 %Puede perder palabras en llamadas ruidosas
Ideal para: soporte al cliente, ventas, grabación por cumplimiento

4. Transcripción con audio ruidoso

ModeloWERNotas
large-v35,2 %Más robusto al ruido
large-v25,9 %Buen manejo del ruido
medium7,5 %Dificultades con mucho ruido
Ideal para: grabaciones exteriores, ruido de fondo, condiciones imperfectas

5. Habla con acento

ModeloWER (acento)Deterioro
large-v34,8 %Línea base
large-v25,4 %+12,5 % peor
medium6,9 %+44 % peor
Conclusión: large-v3 ofrece mejoras claras con habla acentuada y no nativa.

Benchmarks de rendimiento multilingüe

Rendimiento en inglés

ModeloWER (EN)Velocidad (RTF)
large-v32,1 %0,15x
large-v22,4 %0,15x
medium3,5 %0,08x

Idiomas distintos del inglés

IdiomaWER large-v3WER large-v2Mejora
Español3,2 %3,6 %+11 %
Francés3,5 %3,9 %+10 %
Alemán3,8 %4,2 %+10 %
Chino4,1 %4,6 %+11 %
Japonés4,3 %4,8 %+10 %
Árabe5,2 %5,8 %+10 %
Conclusión: large-v3 muestra una mejora estable del 10–11 % en los principales idiomas.

Benchmarks de velocidad

Factor en tiempo real (RTF)

RTF (Real-Time Factor) mide la velocidad de procesamiento:
  • RTF < 1,0: más rápido que tiempo real
  • RTF = 1,0: tiempo real
  • RTF > 1,0: más lento que tiempo real

Rendimiento en GPU (NVIDIA RTX 4090)

ModeloRTF (FP16)RTF (FP32)Tiempo (1 h de audio)
large-v30,15x0,45x~9 min
large-v20,15x0,45x~9 min
medium0,08x0,25x~5 min
small0,04x0,12x~2,5 min
Conclusión: large-v3 mantiene la misma velocidad que large-v2 (0,15x RTF en GPU).

Rendimiento en CPU (Intel i7-12700K)

ModeloRTFTiempo (1 h de audio)
large-v38,5x~8,5 h
large-v28,5x~8,5 h
medium4,2x~4,2 h
small2,1x~2,1 h
Nota: el procesamiento en CPU es mucho más lento. Se recomienda encarecidamente usar GPU.

Requisitos de recursos

Uso de memoria

ModeloVRAM (FP16)VRAM (FP32)RAM (CPU)
large-v3~10 GB~20 GB~16 GB
large-v2~10 GB~20 GB~16 GB
medium~5 GB~10 GB~8 GB
small~2 GB~4 GB~4 GB

Almacenamiento

ModeloTamaño del archivoEspacio en disco
large-v3~3,0 GB~3,0 GB
large-v2~3,0 GB~3,0 GB
medium~1,5 GB~1,5 GB
small~500 MB~500 MB

Comparación de rendimiento: large-v3 vs. large-v2

Mejoras de precisión

Métricalarge-v2large-v3Mejora
WER audio limpio2,4 %2,1 %+12,5 %
WER mundo real4,3 %3,8 %+12 %
WER audio ruidoso5,9 %5,2 %+12 %
WER llamadas6,8 %6,1 %+10 %
WER habla acentuada5,4 %4,8 %+11 %
Resumen: large-v3 ofrece mejora de precisión del 10–12 % de forma coherente en todas las condiciones.

Comparación de velocidad

Métricalarge-v2large-v3Diferencia
RTF GPU (FP16)0,15x0,15xIgual
RTF CPU8,5x8,5xIgual
Uso de memoria~10 GB~10 GBIgual
Resumen: large-v3 mantiene la misma velocidad y los mismos recursos que large-v2.

Metodología de los benchmarks

Conjuntos de datos de prueba

Los benchmarks anteriores se basan en:
  1. LibriSpeech: inglés limpio y ruidoso
  2. Common Voice: audio multilingüe del mundo real
  3. Charlas TED: habla natural con acentos
  4. Conjuntos de llamadas: audio telefónico
  5. Grabaciones reales: podcasts, reuniones, entrevistas

Métricas de evaluación

  • WER (Word Error Rate): métrica principal de precisión
  • RTF (Real-Time Factor): métrica de velocidad
  • Uso de memoria: requisitos de VRAM/RAM
  • Latencia: tiempo hasta la primera palabra (streaming)

Condiciones de prueba

  • Hardware: NVIDIA RTX 4090 (GPU), Intel i7-12700K (CPU)
  • Software: Whisper v20231117, PyTorch 2.1, CUDA 12.1
  • Ajustes: temperature=0.0, best_of=5, beam_size=5
  • Audio: mono 16 kHz, formato WAV

Conclusiones prácticas sobre el rendimiento real

Cuándo usar large-v3

Elija large-v3 si:
  • ✅ la máxima precisión es crítica
  • ✅ dispone de GPU
  • ✅ el tiempo de procesamiento no es la limitación principal
  • ✅ trabaja con audio ruidoso o con acento
  • ✅ necesita transcripción multilingüe
  • ✅ casos de uso profesionales o comerciales

Cuándo usar otros modelos

Elija large-v2 si:
  • ✅ necesita un rendimiento equivalente al de v3 pero con estabilidad probada
  • ✅ su infraestructura ya está optimizada para v2
Elija medium si:
  • ✅ necesita mayor velocidad
  • ✅ los requisitos de precisión son moderados
  • ✅ la memoria de GPU es limitada (~5 GB disponibles)
Elija small si:
  • ✅ la velocidad es lo más importante
  • ✅ los requisitos de precisión son más bajos
  • ✅ los recursos de cómputo son limitados

Consejos de optimización del rendimiento

Máxima precisión

import whisper

model = whisper.load_model("large-v3")

result = model.transcribe(
    audio,
    language="en",  # Specify if known
    temperature=0.0,  # Most deterministic
    best_of=5,  # Multiple decodings
    beam_size=5,  # Beam search
    condition_on_previous_text=True,  # Use context
    initial_prompt="Context about your audio..."
)
WER esperado: 2,1–3,8 % según la calidad del audio

Equilibrio velocidad/precisión

model = whisper.load_model("large-v3")

result = model.transcribe(
    audio,
    language="en",
    temperature=0.0,
    best_of=1,  # Single decoding (faster)
    beam_size=5,
    condition_on_previous_text=True
)
WER esperado: 2,3–4,0 % (algo mayor pero ~5× más rápido)

Resumen de resultados de los benchmarks

Resumen de precisión

CondiciónWER large-v3Clasificación
Audio limpio2,1 %🥇 Mejor
Mundo real3,8 %🥇 Mejor
Audio ruidoso5,2 %🥇 Mejor
Llamadas6,1 %🥇 Mejor
Habla acentuada4,8 %🥇 Mejor

Resumen de velocidad

HardwareRTF large-v3Estado
GPU (RTX 4090)0,15x⚡ Muy rápido
CPU (i7-12700K)8,5x🐌 Lento

Resumen de recursos

RecursoRequisitoEstado
VRAM (FP16)~10 GB💾 Alto
Tamaño del modelo~3 GB💾 Moderado
Velocidad de procesamiento0,15x RTF⚡ Rápido

Comparación con otros modelos

large-v3 frente a APIs comerciales

ServicioWER (limpio)WER (ruidoso)Coste
Whisper large-v32,1 %5,2 %Gratis (autohospedado)
Google Speech-to-Text2,3 %5,8 %$0.006/min
Deepgram2,5 %6,1 %$0.0043/min
AssemblyAI2,6 %6,3 %$0.00025/min
Conclusión: large-v3 iguala o supera la precisión de las APIs comerciales sin coste (autohospedaje).

Recomendaciones prácticas

Producción

  1. Use large-v3 para la máxima precisión
  2. Despliegue en GPU para una velocidad razonable
  3. Use ajustes optimizados (temperature=0.0, best_of=5)
  4. Divida el audio largo en fragmentos para mejor precisión
  5. Indique el idioma cuando lo conozca

Desarrollo y pruebas

  1. Use el modelo medium para iterar más rápido
  2. Pase a large-v3 para la validación final de precisión
  3. Pruebe con audio representativo de su caso de uso

Despliegues con restricción de coste

  1. Use large-v3 (gratis, autohospedado)
  2. Optimice el procesamiento por lotes para maximizar la GPU
  3. Valore el modelo medium si el coste de GPU es prohibitivo

Limitaciones y consideraciones

Limitaciones conocidas

  1. No es tiempo real: el procesamiento es por lotes
  2. Mucha memoria: requiere ~10 GB de VRAM
  3. Dependencia de GPU: la CPU es muy lenta
  4. Sin streaming: hay que procesar fragmentos completos
  5. Sin diarización de hablantes: requiere herramientas aparte

Cuándo large-v3 puede no ser la mejor opción

  • Transcripción en tiempo real: use ASR en streaming
  • Latencia muy baja: considere modelos especializados
  • Poca GPU: use modelos medium o small
  • Casos simples: los modelos más pequeños pueden bastar

Conclusión

Whisper large-v3 representa el estado del arte actual en reconocimiento de voz de código abierto:
  • Máxima precisión: 2,1 % WER en audio limpio
  • Mejoras coherentes: 10–12 % mejor que large-v2
  • Misma velocidad: sin penalización frente a large-v2
  • Excelencia multilingüe: buen rendimiento en más de 99 idiomas
  • Robustez al ruido: muy buen comportamiento en el mundo real
Ideas clave:
  1. large-v3 es la mejor opción para máxima precisión
  2. La GPU es imprescindible para una velocidad de procesamiento razonable
  3. Mejora de precisión del 10–12 % frente a large-v2 en todas las condiciones
  4. Gratis y de código abierto con precisión comparable a APIs comerciales
  5. Ideal para: transcripción profesional, contenido multilingüe, audio ruidoso
En la mayoría de escenarios de producción que exigen alta precisión, Whisper large-v3 es la opción recomendada.

Para transcripción lista para producción con rendimiento optimizado de Whisper large-v3, plataformas como SayToWords ofrecen infraestructura gestionada y optimización automática para obtener los mejores resultados.

Pruébalo gratis ahora

Prueba ahora nuestro servicio de voz y audio/vídeo con IA. Disfruta de transcripción de voz a texto de alta precisión, traducción multilingüe y diarización inteligente de hablantes, además de generación automática de subtítulos de vídeo, edición inteligente de contenido audiovisual y análisis sincronizado de audio e imagen. Cubre por completo casos como actas de reuniones, creación de vídeos cortos y producción de pódcasts. ¡Empieza tu prueba gratuita hoy mismo!

Sonido a Texto OnlineSonido a Texto GratisConvertidor de Sonido a TextoSonido a Texto MP3Sonido a Texto WAVSonido a Texto con Marcas de TiempoVoz a texto para reunionesSound to Text Multi LanguageSonido a Texto SubtítulosConvertir WAV a textoVoz a TextoVoz a Texto en LíneaVoz a textoConvertir MP3 a textoConvertir grabación de voz a textoEscritura por Voz OnlineVoz a Texto con Marcas de TiempoVoz a Texto en Tiempo RealVoz a Texto para Audio LargoVoz a Texto para VideoVoz a Texto para YouTubeVoz a Texto para Edición de VideoVoz a Texto para SubtítulosVoz a Texto para PodcastsVoz a Texto para EntrevistasAudio de Entrevista a TextoVoz a Texto para GrabacionesVoz a Texto para ReunionesVoz a Texto para ConferenciasVoz a Texto para NotasVoz a Texto MultiidiomaVoz a Texto PrecisaVoz a Texto RápidaAlternativa Premiere Pro Voz a TextoAlternativa DaVinci Voz a TextoAlternativa VEED Voz a TextoAlternativa InVideo Voz a TextoAlternativa Otter.ai Voz a TextoAlternativa Descript Voz a TextoAlternativa Trint Voz a TextoAlternativa Rev Voz a TextoAlternativa Sonix Voz a TextoAlternativa Happy Scribe Voz a TextoAlternativa Zoom Voz a TextoAlternativa Google Meet Voz a TextoAlternativa Microsoft Teams Voz a TextoAlternativa Fireflies.ai Voz a TextoAlternativa Fathom Voz a TextoAlternativa FlexClip Voz a TextoAlternativa Kapwing Voz a TextoAlternativa Canva Voz a TextoVoz a Texto para Audio LargoVoz a Texto con IAVoz a Texto GratisVoz a Texto Sin AnunciosVoz a Texto para Audio con RuidoVoz a Texto con TiempoGenerar Subtítulos desde AudioTranscripción de Podcasts OnlineTranscribir Llamadas de ClientesVoz de TikTok a TextoAudio de TikTok a TextoVoz de YouTube a TextoAudio de YouTube a TextoNota de Voz a TextoMensaje de Voz de WhatsApp a TextoMensaje de Voz de Telegram a TextoTranscripción de Llamadas DiscordVoz de Twitch a TextoVoz de Skype a TextoVoz de Messenger a TextoMensaje de Voz de LINE a TextoTranscribir Vlogs a TextoConvertir Audio de Sermón a TextoConvertir Habla en EscrituraTraducir Audio a TextoConvertir Notas de Audio a TextoEscritura por VozEscritura por Voz para ReunionesEscritura por Voz para YouTubeHablar para EscribirEscritura Sin ManosVoz a PalabrasHabla a PalabrasHabla a Texto en LíneaOnline Transcription SoftwareHabla a Texto para ReunionesHabla a Texto RápidoReal Time Speech to TextLive Transcription AppHabla a Texto para TikTokSonido a Texto para TikTokHablar a PalabrasHablar a TextoTalk to Text FreeTalk to Text OnlineTalk to Text for YouTubeTalk to Text for SubtitlesTalk to Text for Content CreatorsTalk to Text for MeetingsAudio a EscrituraSonido a TextoHerramienta de Escritura por VozHerramienta de Escritura por HablaDictado por VozHerramienta de Transcripción LegalHerramienta de Dictado MédicoTranscripción de Audio JaponésTranscripción de Reuniones en CoreanoHerramienta de Transcripción de ReunionesAudio de Reunión a TextoConvertidor de Conferencias a TextoAudio de Conferencia a TextoTranscripción de Video a TextoGenerador de Subtítulos para TikTokTranscripción de Centro de LlamadasHerramienta de Audio de Reels a TextoTranscribir MP3 a TextoTranscribir archivo WAV a textoCapCut Voz a TextoCapCut Voz a TextoVoice to Text in EnglishAudio a Texto en InglésVoice to Text in SpanishVoice to Text in FrenchAudio a Texto en FrancésVoice to Text in GermanAudio a Texto en AlemánVoice to Text in JapaneseAudio a Texto en JaponésVoice to Text in KoreanAudio a Texto en CoreanoVoice to Text in PortugueseVoice to Text in ArabicVoice to Text in ChineseVoice to Text in HindiVoice to Text in RussianWeb Voice Typing ToolVoice Typing Website