
Whisper Large v3 Turbo en una entrevista en inglés — benchmark del 28 de marzo de 2026 (WER, CER, RTF)
2026-03-28Test
Eric King
Author
Esta nota documenta una única ejecución con configuración fija sobre audio de estilo entrevista en inglés (~8,5 minutos). El evaluador informa una tasa de error de palabras cercana al 69 %, con borrados dominando el presupuesto de error (2192 borrados frente a 188 sustituciones, 0 inserciones). Ese patrón suele indicar que el texto hipótesis cubre mucho menos la referencia que una transcripción «ruidosa pero completa» típica; por tanto, los números deben leerse como diagnóstico, junto con una comprobación manual de que la salida del modelo y la referencia describen la misma grabación y segmentación.
Vídeo y texto de referencia. El audio evaluado procede de un vídeo fuente (enlace abajo). El WebVTT de referencia (
ref.vtt) es la pista de subtítulos que acompaña a ese vídeo — exportada o guardada como WebVTT desde los subtítulos de la plataforma — no una transcripción «oro» redactada de forma independiente. La hipótesis (model.vtt) es el ASR Whisper large-v3-turbo sobre el mismo audio. Las métricas comparan por tanto subtítulos proporcionados por la plataforma con esta ejecución ASR, una línea base práctica pero no lo mismo que puntuar frente a transcripciones de investigación curadas a mano.1. Por qué importa este benchmark
El audio de entrevista exige al ASR solapamiento de voz, ritmo irregular, nombres y números — condiciones habituales en trabajo editorial y de investigación. Publicar id. de modelo, idioma, duración, marcas de tiempo y métricas estándar hace la ejecución comparable con repeticiones u otras tuberías; el objetivo es transparencia, no una reclamación de producto.
2. Configuración de la prueba
Salvo indicación contraria, los valores siguientes provienen de
other.yaml y result.json para este caso.| Campo | Valor |
|---|---|
| Fecha (ventana de procesamiento) | 2026-03-28 (ver processtime-at / completed-at en other.yaml) |
| Escenario | Contenido tipo entrevista en inglés (etiqueta de idioma: English) |
| Modelo Whisper | large-v3-turbo (whisper-model en other.yaml) |
| Duración del audio (YAML) | 08:25 (etiqueta 8 min 25 s en tiempo real) |
| Duración del audio (evaluador) | 506.88 s (del intervalo de cues del VTT de referencia en result.json) |
| Intervalo de procesamiento en tiempo real | processtime-at: 2026-03-28 09:56:40.204 → completed-at: 2026-03-28 09:57:57.000 |
| Tiempo de procesamiento STT derivado | ≈ 76.8 s (diferencia entre las dos marcas de tiempo anteriores; no almacenado en result.json porque esta ejecución usó modo VTT explícito sin YAML adjunto a la salida del evaluador) |
| RTF derivado | ≈ 0.151 (tiempo de procesamiento ÷ 506.88 s de duración del audio) |
Nota:
result.json lista "yamlMeta": null para esta ejecución explícita de dos archivos; el RTF allí es null. El tiempo de procesamiento y el RTF en este artículo se recalculan desde other.yaml para coherencia con la sección de metodología.3. Metodología de evaluación
La referencia y la hipótesis son archivos WebVTT. Se extrae texto plano de los cues (eliminando marcas de tiempo e índices), luego se normaliza (mayúsculas, puntuación y tipografía simple) antes de puntuar.
Alineación a nivel de palabra
La referencia y la hipótesis se alinean como secuencias de tokens. Un programa dinámico estilo Levenshtein estándar encuentra un camino de coste mínimo entre las dos secuencias de palabras; el retroceso produce recuentos de sustituciones (S), borrados (D) e inserciones (I) respecto a la longitud de referencia N.
Tasa de error de palabras (WER) y precisión
Sean (S), (D) e (I) los recuentos de sustitución, borrado e inserción, y (N) el número de palabras de referencia.
[
\mathrm{WER} = \frac{S + D + I}{N}, \qquad \mathrm{Accuracy} = 1 - \mathrm{WER}.
]
Tasa de error de caracteres (CER)
Se eliminan los espacios en blanco de las cadenas normalizadas. La distancia de edición de caracteres es la distancia de Levenshtein a nivel de carácter; el recuento de caracteres de referencia es la longitud de la cadena de referencia sin espacios.
[
\mathrm{CER} = \frac{\text{Character edit distance}}{\text{Reference character count}}.
]
Factor en tiempo real (RTF)
[
\mathrm{RTF} = \frac{\text{Processing time (seconds)}}{\text{Audio duration (seconds)}}.
]
Un RTF inferior a 1 significa que la decodificación fue más rápida que el tiempo real en este hardware/ejecución.
4. Resumen del modelo
Whisper large-v3-turbo está en la familia «large» e intercambia parte del cómputo por rendimiento frente a los checkpoints large completos (el comportamiento exacto depende de la implementación y el hardware). Es un ASR multilingüe de propósito general adecuado para borradores e indexación de búsqueda donde no se asume fidelidad perfecta. Esta prueba evalúa una configuración de
other.yaml; sin barrido de temperatura, fragmentación ni VAD.5. Resultados (desde result.json)
Valores exactos del objeto de métricas precalculado:
- Recuento de palabras de referencia (N): 3442
- Sustituciones (S): 188
- Borrados (D): 2192
- Inserciones (I): 0
- WER: 0.6914584543869843
- Precisión: 0.3085415456130157
- Recuento de caracteres de referencia: 15790
- Distancia de edición de caracteres: 10494
- CER: 0.664597846738442
- Duración del audio (segundos): 506.88
- Tiempo de procesamiento STT (en JSON):
null(ver la sección 2 para la duración derivada del YAML) - RTF (en JSON):
null(RTF derivado ≈ 0.151 usando marcas del YAML) - Tiempo de ejecución del script de evaluación: 3.11 s
Redondeado para lectura
- WER ≈ 69.1 %; precisión ≈ 30.9 %
- CER ≈ 66.5 %
- ~10.5k ediciones de carácter sobre ~15.8k caracteres de referencia
- RTF ≈ 0.15× (más rápido que tiempo real en este clip, usando tiempo de procesamiento derivado del YAML)
6. Análisis del patrón de errores
Con I = 0, la hipótesis no añade palabras espurias respecto a esta alineación; casi toda la masa de error a nivel de palabra son borrados y sustituciones, y los borrados son un orden de magnitud mayores que las sustituciones (2192 frente a 188).
Interpretación práctica:
- Los perfiles ricos en borrados suelen indicar segmentos ausentes en la hipótesis (manejo del silencio, parada anticipada, longitud de clip distinta o referencia más larga que el audio realmente transcrito).
- Cero inserciones rara vez aparece en ASR del mundo real desordenado; junto con un WER extremo, es una señal para verificar el emparejamiento de datos (mismo archivo, mismo idioma, misma edición de la referencia) antes de atribuir la puntuación solo a la «calidad del modelo».
Un CER ~66 % es coherente con tramos largos de texto que no coinciden entre referencia e hipótesis, no solo intercambios ocasionales de palabras.
7. Ideas clave
- Velocidad: Un RTF derivado ≈ 0.15 sugiere que la pila terminó en una fracción del tiempo real para este clip — útil donde importa la latencia, independientemente del WER bruto.
- Precisión: Un WER ~69 % no es suficiente para citas publicables ni transcripciones de nivel legal sin revisión humana intensiva.
- Forma del error: Dominan los borrados; priorice investigar cobertura y alineación de segmentos antes de afinar hiperparámetros de decodificación.
- Límites de una sola muestra: Una entrevista y una configuración de modelo no definen el rendimiento esperado en producción en todos los acentos, códecs o ruidos.
- Reproducibilidad: Conservar los cuatro artefactos juntos preserva una instantánea congelada.
8. Mejor modelo para este escenario
Solo para este clip y esta referencia, Whisper large-v3-turbo es una línea base documentada: las marcas de tiempo describen el rendimiento; el WER/CER describe la discrepancia frente a su referencia. No se argumenta que sea el mejor modelo para todas las entrevistas en inglés.
9. Veredicto final neutral
Para borradores de notas, búsqueda interna o indexación aproximada donde los errores son aceptables y la velocidad importa, un RTF bajo y una transcripción almacenada pueden seguir siendo útiles con advertencias claras.
Para citar a participantes, flujos sensibles al cumplimiento o publicación de archivo, la precisión de palabras ~31 % de esta ejecución y el perfil de error rico en borrados implican que debe asumirse corrección humana o una captura/alineación de referencia distinta hasta que las puntuaciones mejoren en pares validados.
Vuelva a ejecutar el evaluador tras corregir problemas de datos; la metodología sigue siendo comparable.
Materiales de origen
Nombre de la carpeta del caso:
20260328 (prefijo de ruta del repositorio: test-transcripts/20260328/).- Vídeo original (fuente de audio): Añada la URL canónica del mismo vídeo cuyos subtítulos se usaron como referencia (p. ej., enlace de reproducción de YouTube). El audio procesado para ASR debe corresponder a esta subida.
- Transcripción de referencia (VTT):
test-transcripts/20260328/ref.vtt— subtítulos del vídeo fuente, almacenados como WebVTT para la evaluación. - Transcripción del modelo (VTT):
test-transcripts/20260328/model.vtt— salida de Whisper large-v3-turbo sobre ese audio. - Metadatos de la ejecución:
test-transcripts/20260328/other.yaml - Métricas de evaluación precalculadas:
test-transcripts/20260328/result.json
La evaluación se generó con
scripts/evaluate-vtt-metrics.js en este repositorio. Coloque los archivos anteriores bajo test-transcripts/20260328/ para reproducir los números citados.