Whisper Large v3 Turbo en una entrevista en inglés — benchmark del 28 de marzo de 2026 (WER, CER, RTF)

Whisper Large v3 Turbo en una entrevista en inglés — benchmark del 28 de marzo de 2026 (WER, CER, RTF)

2026-03-28Test
Eric King

Eric King

Author


Esta nota documenta una única ejecución con configuración fija sobre audio de estilo entrevista en inglés (~8,5 minutos). El evaluador informa una tasa de error de palabras cercana al 69 %, con borrados dominando el presupuesto de error (2192 borrados frente a 188 sustituciones, 0 inserciones). Ese patrón suele indicar que el texto hipótesis cubre mucho menos la referencia que una transcripción «ruidosa pero completa» típica; por tanto, los números deben leerse como diagnóstico, junto con una comprobación manual de que la salida del modelo y la referencia describen la misma grabación y segmentación.
Vídeo y texto de referencia. El audio evaluado procede de un vídeo fuente (enlace abajo). El WebVTT de referencia (ref.vtt) es la pista de subtítulos que acompaña a ese vídeo — exportada o guardada como WebVTT desde los subtítulos de la plataforma — no una transcripción «oro» redactada de forma independiente. La hipótesis (model.vtt) es el ASR Whisper large-v3-turbo sobre el mismo audio. Las métricas comparan por tanto subtítulos proporcionados por la plataforma con esta ejecución ASR, una línea base práctica pero no lo mismo que puntuar frente a transcripciones de investigación curadas a mano.

1. Por qué importa este benchmark

El audio de entrevista exige al ASR solapamiento de voz, ritmo irregular, nombres y números — condiciones habituales en trabajo editorial y de investigación. Publicar id. de modelo, idioma, duración, marcas de tiempo y métricas estándar hace la ejecución comparable con repeticiones u otras tuberías; el objetivo es transparencia, no una reclamación de producto.

2. Configuración de la prueba

Salvo indicación contraria, los valores siguientes provienen de other.yaml y result.json para este caso.
CampoValor
Fecha (ventana de procesamiento)2026-03-28 (ver processtime-at / completed-at en other.yaml)
EscenarioContenido tipo entrevista en inglés (etiqueta de idioma: English)
Modelo Whisperlarge-v3-turbo (whisper-model en other.yaml)
Duración del audio (YAML)08:25 (etiqueta 8 min 25 s en tiempo real)
Duración del audio (evaluador)506.88 s (del intervalo de cues del VTT de referencia en result.json)
Intervalo de procesamiento en tiempo realprocesstime-at: 2026-03-28 09:56:40.204completed-at: 2026-03-28 09:57:57.000
Tiempo de procesamiento STT derivado76.8 s (diferencia entre las dos marcas de tiempo anteriores; no almacenado en result.json porque esta ejecución usó modo VTT explícito sin YAML adjunto a la salida del evaluador)
RTF derivado0.151 (tiempo de procesamiento ÷ 506.88 s de duración del audio)
Nota: result.json lista "yamlMeta": null para esta ejecución explícita de dos archivos; el RTF allí es null. El tiempo de procesamiento y el RTF en este artículo se recalculan desde other.yaml para coherencia con la sección de metodología.

3. Metodología de evaluación

La referencia y la hipótesis son archivos WebVTT. Se extrae texto plano de los cues (eliminando marcas de tiempo e índices), luego se normaliza (mayúsculas, puntuación y tipografía simple) antes de puntuar.
Alineación a nivel de palabra
La referencia y la hipótesis se alinean como secuencias de tokens. Un programa dinámico estilo Levenshtein estándar encuentra un camino de coste mínimo entre las dos secuencias de palabras; el retroceso produce recuentos de sustituciones (S), borrados (D) e inserciones (I) respecto a la longitud de referencia N.
Tasa de error de palabras (WER) y precisión
Sean (S), (D) e (I) los recuentos de sustitución, borrado e inserción, y (N) el número de palabras de referencia.
[ \mathrm{WER} = \frac{S + D + I}{N}, \qquad \mathrm{Accuracy} = 1 - \mathrm{WER}. ]
Tasa de error de caracteres (CER)
Se eliminan los espacios en blanco de las cadenas normalizadas. La distancia de edición de caracteres es la distancia de Levenshtein a nivel de carácter; el recuento de caracteres de referencia es la longitud de la cadena de referencia sin espacios.
[ \mathrm{CER} = \frac{\text{Character edit distance}}{\text{Reference character count}}. ]
Factor en tiempo real (RTF)
[ \mathrm{RTF} = \frac{\text{Processing time (seconds)}}{\text{Audio duration (seconds)}}. ]
Un RTF inferior a 1 significa que la decodificación fue más rápida que el tiempo real en este hardware/ejecución.

4. Resumen del modelo

Whisper large-v3-turbo está en la familia «large» e intercambia parte del cómputo por rendimiento frente a los checkpoints large completos (el comportamiento exacto depende de la implementación y el hardware). Es un ASR multilingüe de propósito general adecuado para borradores e indexación de búsqueda donde no se asume fidelidad perfecta. Esta prueba evalúa una configuración de other.yaml; sin barrido de temperatura, fragmentación ni VAD.

5. Resultados (desde result.json)

Valores exactos del objeto de métricas precalculado:
  • Recuento de palabras de referencia (N): 3442
  • Sustituciones (S): 188
  • Borrados (D): 2192
  • Inserciones (I): 0
  • WER: 0.6914584543869843
  • Precisión: 0.3085415456130157
  • Recuento de caracteres de referencia: 15790
  • Distancia de edición de caracteres: 10494
  • CER: 0.664597846738442
  • Duración del audio (segundos): 506.88
  • Tiempo de procesamiento STT (en JSON): null (ver la sección 2 para la duración derivada del YAML)
  • RTF (en JSON): null (RTF derivado ≈ 0.151 usando marcas del YAML)
  • Tiempo de ejecución del script de evaluación: 3.11 s
Redondeado para lectura
  • WER ≈ 69.1 %; precisión ≈ 30.9 %
  • CER ≈ 66.5 %
  • ~10.5k ediciones de carácter sobre ~15.8k caracteres de referencia
  • RTF ≈ 0.15× (más rápido que tiempo real en este clip, usando tiempo de procesamiento derivado del YAML)

6. Análisis del patrón de errores

Con I = 0, la hipótesis no añade palabras espurias respecto a esta alineación; casi toda la masa de error a nivel de palabra son borrados y sustituciones, y los borrados son un orden de magnitud mayores que las sustituciones (2192 frente a 188).
Interpretación práctica:
  • Los perfiles ricos en borrados suelen indicar segmentos ausentes en la hipótesis (manejo del silencio, parada anticipada, longitud de clip distinta o referencia más larga que el audio realmente transcrito).
  • Cero inserciones rara vez aparece en ASR del mundo real desordenado; junto con un WER extremo, es una señal para verificar el emparejamiento de datos (mismo archivo, mismo idioma, misma edición de la referencia) antes de atribuir la puntuación solo a la «calidad del modelo».
Un CER ~66 % es coherente con tramos largos de texto que no coinciden entre referencia e hipótesis, no solo intercambios ocasionales de palabras.

7. Ideas clave

  • Velocidad: Un RTF derivado ≈ 0.15 sugiere que la pila terminó en una fracción del tiempo real para este clip — útil donde importa la latencia, independientemente del WER bruto.
  • Precisión: Un WER ~69 % no es suficiente para citas publicables ni transcripciones de nivel legal sin revisión humana intensiva.
  • Forma del error: Dominan los borrados; priorice investigar cobertura y alineación de segmentos antes de afinar hiperparámetros de decodificación.
  • Límites de una sola muestra: Una entrevista y una configuración de modelo no definen el rendimiento esperado en producción en todos los acentos, códecs o ruidos.
  • Reproducibilidad: Conservar los cuatro artefactos juntos preserva una instantánea congelada.

8. Mejor modelo para este escenario

Solo para este clip y esta referencia, Whisper large-v3-turbo es una línea base documentada: las marcas de tiempo describen el rendimiento; el WER/CER describe la discrepancia frente a su referencia. No se argumenta que sea el mejor modelo para todas las entrevistas en inglés.

9. Veredicto final neutral

Para borradores de notas, búsqueda interna o indexación aproximada donde los errores son aceptables y la velocidad importa, un RTF bajo y una transcripción almacenada pueden seguir siendo útiles con advertencias claras.
Para citar a participantes, flujos sensibles al cumplimiento o publicación de archivo, la precisión de palabras ~31 % de esta ejecución y el perfil de error rico en borrados implican que debe asumirse corrección humana o una captura/alineación de referencia distinta hasta que las puntuaciones mejoren en pares validados.
Vuelva a ejecutar el evaluador tras corregir problemas de datos; la metodología sigue siendo comparable.

Materiales de origen

Nombre de la carpeta del caso: 20260328 (prefijo de ruta del repositorio: test-transcripts/20260328/).
  • Vídeo original (fuente de audio): Añada la URL canónica del mismo vídeo cuyos subtítulos se usaron como referencia (p. ej., enlace de reproducción de YouTube). El audio procesado para ASR debe corresponder a esta subida.
  • Transcripción de referencia (VTT): test-transcripts/20260328/ref.vttsubtítulos del vídeo fuente, almacenados como WebVTT para la evaluación.
  • Transcripción del modelo (VTT): test-transcripts/20260328/model.vtt — salida de Whisper large-v3-turbo sobre ese audio.
  • Metadatos de la ejecución: test-transcripts/20260328/other.yaml
  • Métricas de evaluación precalculadas: test-transcripts/20260328/result.json
La evaluación se generó con scripts/evaluate-vtt-metrics.js en este repositorio. Coloque los archivos anteriores bajo test-transcripts/20260328/ para reproducir los números citados.

Pruébalo gratis ahora

Prueba ahora nuestro servicio de voz y audio/vídeo con IA. Disfruta de transcripción de voz a texto de alta precisión, traducción multilingüe y diarización inteligente de hablantes, además de generación automática de subtítulos de vídeo, edición inteligente de contenido audiovisual y análisis sincronizado de audio e imagen. Cubre por completo casos como actas de reuniones, creación de vídeos cortos y producción de pódcasts. ¡Empieza tu prueba gratuita hoy mismo!

Sonido a Texto OnlineSonido a Texto GratisConvertidor de Sonido a TextoSonido a Texto MP3Sonido a Texto WAVSonido a Texto con Marcas de TiempoVoz a texto para reunionesSound to Text Multi LanguageSonido a Texto SubtítulosConvertir WAV a textoVoz a TextoVoz a Texto en LíneaVoz a textoConvertir MP3 a textoConvertir grabación de voz a textoEscritura por Voz OnlineVoz a Texto con Marcas de TiempoVoz a Texto en Tiempo RealVoz a Texto para Audio LargoVoz a Texto para VideoVoz a Texto para YouTubeVoz a Texto para Edición de VideoVoz a Texto para SubtítulosVoz a Texto para PodcastsVoz a Texto para EntrevistasAudio de Entrevista a TextoVoz a Texto para GrabacionesVoz a Texto para ReunionesVoz a Texto para ConferenciasVoz a Texto para NotasVoz a Texto MultiidiomaVoz a Texto PrecisaVoz a Texto RápidaAlternativa Premiere Pro Voz a TextoAlternativa DaVinci Voz a TextoAlternativa VEED Voz a TextoAlternativa InVideo Voz a TextoAlternativa Otter.ai Voz a TextoAlternativa Descript Voz a TextoAlternativa Trint Voz a TextoAlternativa Rev Voz a TextoAlternativa Sonix Voz a TextoAlternativa Happy Scribe Voz a TextoAlternativa Zoom Voz a TextoAlternativa Google Meet Voz a TextoAlternativa Microsoft Teams Voz a TextoAlternativa Fireflies.ai Voz a TextoAlternativa Fathom Voz a TextoAlternativa FlexClip Voz a TextoAlternativa Kapwing Voz a TextoAlternativa Canva Voz a TextoVoz a Texto para Audio LargoVoz a Texto con IAVoz a Texto GratisVoz a Texto Sin AnunciosVoz a Texto para Audio con RuidoVoz a Texto con TiempoGenerar Subtítulos desde AudioTranscripción de Podcasts OnlineTranscribir Llamadas de ClientesVoz de TikTok a TextoAudio de TikTok a TextoVoz de YouTube a TextoAudio de YouTube a TextoNota de Voz a TextoMensaje de Voz de WhatsApp a TextoMensaje de Voz de Telegram a TextoTranscripción de Llamadas DiscordVoz de Twitch a TextoVoz de Skype a TextoVoz de Messenger a TextoMensaje de Voz de LINE a TextoTranscribir Vlogs a TextoConvertir Audio de Sermón a TextoConvertir Habla en EscrituraTraducir Audio a TextoConvertir Notas de Audio a TextoEscritura por VozEscritura por Voz para ReunionesEscritura por Voz para YouTubeHablar para EscribirEscritura Sin ManosVoz a PalabrasHabla a PalabrasHabla a Texto en LíneaOnline Transcription SoftwareHabla a Texto para ReunionesHabla a Texto RápidoReal Time Speech to TextLive Transcription AppHabla a Texto para TikTokSonido a Texto para TikTokHablar a PalabrasHablar a TextoTalk to Text FreeTalk to Text OnlineTalk to Text for YouTubeTalk to Text for SubtitlesTalk to Text for Content CreatorsTalk to Text for MeetingsAudio a EscrituraSonido a TextoHerramienta de Escritura por VozHerramienta de Escritura por HablaDictado por VozHerramienta de Transcripción LegalHerramienta de Dictado MédicoTranscripción de Audio JaponésTranscripción de Reuniones en CoreanoHerramienta de Transcripción de ReunionesAudio de Reunión a TextoConvertidor de Conferencias a TextoAudio de Conferencia a TextoTranscripción de Video a TextoGenerador de Subtítulos para TikTokTranscripción de Centro de LlamadasHerramienta de Audio de Reels a TextoTranscribir MP3 a TextoTranscribir archivo WAV a textoCapCut Voz a TextoCapCut Voz a TextoVoice to Text in EnglishAudio a Texto en InglésVoice to Text in SpanishVoice to Text in FrenchAudio a Texto en FrancésVoice to Text in GermanAudio a Texto en AlemánVoice to Text in JapaneseAudio a Texto en JaponésVoice to Text in KoreanAudio a Texto en CoreanoVoice to Text in PortugueseVoice to Text in ArabicVoice to Text in ChineseVoice to Text in HindiVoice to Text in RussianWeb Voice Typing ToolVoice Typing Website