Whisper Large v3 Turbo en una entrevista en inglés — benchmark del 28 de marzo de 2026 (WER, CER, RTF)

Esta nota documenta una única ejecución con configuración fija sobre audio de estilo entrevista en inglés (~8,5 minutos). El evaluador informa una tasa de error de palabras cercana al 69 %, con borrados dominando el presupuesto de error (2192 borrados frente a 188 sustituciones, 0 inserciones). Ese patrón suele indicar que el texto hipótesis cubre mucho menos la referencia que una transcripción «ruidosa pero completa» típica; por tanto, los números deben leerse como diagnóstico, junto con una comprobación manual de que la salida del modelo y la referencia describen la misma grabación y segmentación.

Vídeo y texto de referencia. El audio evaluado procede de un vídeo fuente (enlace abajo). El WebVTT de referencia (ref.vtt) es la pista de subtítulos que acompaña a ese vídeo — exportada o guardada como WebVTT desde los subtítulos de la plataforma — no una transcripción «oro» redactada de forma independiente. La hipótesis (model.vtt) es el ASR Whisper large-v3-turbo sobre el mismo audio. Las métricas comparan por tanto subtítulos proporcionados por la plataforma con esta ejecución ASR, una línea base práctica pero no lo mismo que puntuar frente a transcripciones de investigación curadas a mano.

1. Por qué importa este benchmark

El audio de entrevista exige al ASR solapamiento de voz, ritmo irregular, nombres y números — condiciones habituales en trabajo editorial y de investigación. Publicar id. de modelo, idioma, duración, marcas de tiempo y métricas estándar hace la ejecución comparable con repeticiones u otras tuberías; el objetivo es transparencia, no una reclamación de producto.

2. Configuración de la prueba

Salvo indicación contraria, los valores siguientes provienen de other.yaml y result.json para este caso.

Campo	Valor
Fecha (ventana de procesamiento)	2026-03-28 (ver `processtime-at` / `completed-at` en `other.yaml`)
Escenario	Contenido tipo entrevista en inglés (etiqueta de idioma: English)
Modelo Whisper	large-v3-turbo (`whisper-model` en `other.yaml`)
Duración del audio (YAML)	08:25 (etiqueta 8 min 25 s en tiempo real)
Duración del audio (evaluador)	506.88 s (del intervalo de cues del VTT de referencia en `result.json`)
Intervalo de procesamiento en tiempo real	`processtime-at`: 2026-03-28 09:56:40.204 → `completed-at`: 2026-03-28 09:57:57.000
Tiempo de procesamiento STT derivado	≈ 76.8 s (diferencia entre las dos marcas de tiempo anteriores; no almacenado en `result.json` porque esta ejecución usó modo VTT explícito sin YAML adjunto a la salida del evaluador)
RTF derivado	≈ 0.151 (tiempo de procesamiento ÷ 506.88 s de duración del audio)

Nota: result.json lista "yamlMeta": null para esta ejecución explícita de dos archivos; el RTF allí es null. El tiempo de procesamiento y el RTF en este artículo se recalculan desde other.yaml para coherencia con la sección de metodología.

3. Metodología de evaluación

La referencia y la hipótesis son archivos WebVTT. Se extrae texto plano de los cues (eliminando marcas de tiempo e índices), luego se normaliza (mayúsculas, puntuación y tipografía simple) antes de puntuar.

Alineación a nivel de palabra

La referencia y la hipótesis se alinean como secuencias de tokens. Un programa dinámico estilo Levenshtein estándar encuentra un camino de coste mínimo entre las dos secuencias de palabras; el retroceso produce recuentos de sustituciones (S), borrados (D) e inserciones (I) respecto a la longitud de referencia N.

Tasa de error de palabras (WER) y precisión

Sean (S), (D) e (I) los recuentos de sustitución, borrado e inserción, y (N) el número de palabras de referencia.

[ \mathrm{WER} = \frac{S + D + I}{N}, \qquad \mathrm{Accuracy} = 1 - \mathrm{WER}. ]

Tasa de error de caracteres (CER)

Se eliminan los espacios en blanco de las cadenas normalizadas. La distancia de edición de caracteres es la distancia de Levenshtein a nivel de carácter; el recuento de caracteres de referencia es la longitud de la cadena de referencia sin espacios.

[ \mathrm{CER} = \frac{\text{Character edit distance}}{\text{Reference character count}}. ]

Factor en tiempo real (RTF)

[ \mathrm{RTF} = \frac{\text{Processing time (seconds)}}{\text{Audio duration (seconds)}}. ]

Un RTF inferior a 1 significa que la decodificación fue más rápida que el tiempo real en este hardware/ejecución.

4. Resumen del modelo

Whisper large-v3-turbo está en la familia «large» e intercambia parte del cómputo por rendimiento frente a los checkpoints large completos (el comportamiento exacto depende de la implementación y el hardware). Es un ASR multilingüe de propósito general adecuado para borradores e indexación de búsqueda donde no se asume fidelidad perfecta. Esta prueba evalúa una configuración de other.yaml; sin barrido de temperatura, fragmentación ni VAD.

5. Resultados (desde `result.json`)

Valores exactos del objeto de métricas precalculado:

Recuento de palabras de referencia (N): 3442
Sustituciones (S): 188
Borrados (D): 2192
Inserciones (I): 0
WER: 0.6914584543869843
Precisión: 0.3085415456130157
Recuento de caracteres de referencia: 15790
Distancia de edición de caracteres: 10494
CER: 0.664597846738442
Duración del audio (segundos): 506.88
Tiempo de procesamiento STT (en JSON): null (ver la sección 2 para la duración derivada del YAML)
RTF (en JSON): null (RTF derivado ≈ 0.151 usando marcas del YAML)
Tiempo de ejecución del script de evaluación: 3.11 s

Redondeado para lectura

WER ≈ 69.1 %; precisión ≈ 30.9 %
CER ≈ 66.5 %
~10.5k ediciones de carácter sobre ~15.8k caracteres de referencia
RTF ≈ 0.15× (más rápido que tiempo real en este clip, usando tiempo de procesamiento derivado del YAML)

6. Análisis del patrón de errores

Con I = 0, la hipótesis no añade palabras espurias respecto a esta alineación; casi toda la masa de error a nivel de palabra son borrados y sustituciones, y los borrados son un orden de magnitud mayores que las sustituciones (2192 frente a 188).

Interpretación práctica:

Los perfiles ricos en borrados suelen indicar segmentos ausentes en la hipótesis (manejo del silencio, parada anticipada, longitud de clip distinta o referencia más larga que el audio realmente transcrito).
Cero inserciones rara vez aparece en ASR del mundo real desordenado; junto con un WER extremo, es una señal para verificar el emparejamiento de datos (mismo archivo, mismo idioma, misma edición de la referencia) antes de atribuir la puntuación solo a la «calidad del modelo».

Un CER ~66 % es coherente con tramos largos de texto que no coinciden entre referencia e hipótesis, no solo intercambios ocasionales de palabras.

7. Ideas clave

Velocidad: Un RTF derivado ≈ 0.15 sugiere que la pila terminó en una fracción del tiempo real para este clip — útil donde importa la latencia, independientemente del WER bruto.
Precisión: Un WER ~69 % no es suficiente para citas publicables ni transcripciones de nivel legal sin revisión humana intensiva.
Forma del error: Dominan los borrados; priorice investigar cobertura y alineación de segmentos antes de afinar hiperparámetros de decodificación.
Límites de una sola muestra: Una entrevista y una configuración de modelo no definen el rendimiento esperado en producción en todos los acentos, códecs o ruidos.
Reproducibilidad: Conservar los cuatro artefactos juntos preserva una instantánea congelada.

8. Mejor modelo para este escenario

Solo para este clip y esta referencia, Whisper large-v3-turbo es una línea base documentada: las marcas de tiempo describen el rendimiento; el WER/CER describe la discrepancia frente a su referencia. No se argumenta que sea el mejor modelo para todas las entrevistas en inglés.

9. Veredicto final neutral

Para borradores de notas, búsqueda interna o indexación aproximada donde los errores son aceptables y la velocidad importa, un RTF bajo y una transcripción almacenada pueden seguir siendo útiles con advertencias claras.

Para citar a participantes, flujos sensibles al cumplimiento o publicación de archivo, la precisión de palabras ~31 % de esta ejecución y el perfil de error rico en borrados implican que debe asumirse corrección humana o una captura/alineación de referencia distinta hasta que las puntuaciones mejoren en pares validados.

Vuelva a ejecutar el evaluador tras corregir problemas de datos; la metodología sigue siendo comparable.

Materiales de origen

Nombre de la carpeta del caso: 20260328 (prefijo de ruta del repositorio: test-transcripts/20260328/).

Vídeo original (fuente de audio): Añada la URL canónica del mismo vídeo cuyos subtítulos se usaron como referencia (p. ej., enlace de reproducción de YouTube). El audio procesado para ASR debe corresponder a esta subida.
Transcripción de referencia (VTT): test-transcripts/20260328/ref.vtt — subtítulos del vídeo fuente, almacenados como WebVTT para la evaluación.
Transcripción del modelo (VTT): test-transcripts/20260328/model.vtt — salida de Whisper large-v3-turbo sobre ese audio.
Metadatos de la ejecución: test-transcripts/20260328/other.yaml
Métricas de evaluación precalculadas: test-transcripts/20260328/result.json

La evaluación se generó con scripts/evaluate-vtt-metrics.js en este repositorio. Coloque los archivos anteriores bajo test-transcripts/20260328/ para reproducir los números citados.

Whisper Large v3 Turbo en una entrevista en inglés — benchmark del 28 de marzo de 2026 (WER, CER, RTF)

1. Por qué importa este benchmark

2. Configuración de la prueba

3. Metodología de evaluación

4. Resumen del modelo

5. Resultados (desde `result.json`)

6. Análisis del patrón de errores

7. Ideas clave

8. Mejor modelo para este escenario

9. Veredicto final neutral

Materiales de origen

Publicaciones relacionadas

Whisper Medium en audio de YouTube en inglés — Benchmark 2026-03-31 (WER, CER, RTF)

Whisper Medium en audio de YouTube en inglés — Benchmark 2026-03-30 (WER, CER, RTF)

Whisper Large v3 Turbo en audio de YouTube en inglés — benchmark del 29 de marzo de 2026 (WER, CER, RTF)

Pruébalo gratis ahora

Whisper Large v3 Turbo en una entrevista en inglés — benchmark del 28 de marzo de 2026 (WER, CER, RTF)

1. Por qué importa este benchmark

2. Configuración de la prueba

3. Metodología de evaluación

4. Resumen del modelo

5. Resultados (desde result.json)

6. Análisis del patrón de errores

7. Ideas clave

8. Mejor modelo para este escenario

9. Veredicto final neutral

Materiales de origen

Publicaciones relacionadas

Whisper Medium en audio de YouTube en inglés — Benchmark 2026-03-31 (WER, CER, RTF)

Whisper Medium en audio de YouTube en inglés — Benchmark 2026-03-30 (WER, CER, RTF)

Whisper Large v3 Turbo en audio de YouTube en inglés — benchmark del 29 de marzo de 2026 (WER, CER, RTF)

Pruébalo gratis ahora

5. Resultados (desde `result.json`)