Whisper Large v3 Turbo en audio de YouTube en inglés — benchmark del 29 de marzo de 2026 (WER, CER, RTF)

Esta nota recoge una ejecución de configuración fija sobre audio en inglés de unos 18 minutos extraído de una subida de YouTube. El evaluador informa WER ≈ 67,6 % con dominio de borrados (6 449 frente a 60 sustituciones, 0 inserciones). Ese perfil sugiere que la transcripción hipótesis encaja mal en cobertura con la referencia — a menudo cuando la referencia es la pista de subtítulos de la plataforma y la salida del ASR refleja otra segmentación u otra duración — por lo que las cifras deben leerse como diagnóstico, no como una “puntuación de precisión” pulida de forma aislada.

Vídeo y texto de referencia. El WebVTT de referencia (ref.vtt) es el texto de subtítulos suministrado con el vídeo de origen (exportado como WebVTT). La hipótesis (model.vtt) es Whisper large-v3-turbo sobre el mismo audio subyacente. Las métricas comparan esos subtítulos con esta ejecución de ASR: una línea base práctica para “qué tan cerca está nuestra canalización de lo que YouTube ofrece como subtítulos”, no una afirmación sobre verdad de referencia verificada por humanos.

1. Por qué importa este benchmark

El habla estilo YouTube está en todas partes en flujos reales: calidad de micrófono variable, bases musicales, cortes y monólogos o diálogos largos. Evaluar el ASR con subtítulos reales de la plataforma como referencia responde a una pregunta concreta: si ejecutamos nuestra propia pila basada en Whisper sobre el mismo audio, ¿cuánto se aleja el texto de lo que los espectadores ya ven como subtítulos? Es útil para QA de subtítulos, reutilización de contenido e indexación de búsqueda — ámbitos donde “suficientemente bueno” depende del producto, pero los números deben ser reproducibles.

2. Configuración de la prueba

Los valores siguientes provienen de other.yaml y result.json para este caso (modo directorio para que los metadatos YAML se adjunten a la salida del evaluador).

Field	Value
Source	YouTube video (audio aligned to that upload)
Date (processing window)	2026-03-29 (`processtime-at` → `completed-at` in `other.yaml`)
Language	English
Whisper model	large-v3-turbo
Audio duration (YAML label)	17:39
Audio duration (scorer, from VTT)	1059.88 s (≈ 17.7 minutes)
STT processing time	175 s (`sttProcessingTimeSeconds` in `result.json`, from YAML timestamps)
RTF	0.165 (from `result.json`)

Intervalo de reloj de pared en YAML: 2026-03-29 16:04:37 → 2026-03-29 16:07:32 (coherente con 175 s de tiempo de procesamiento).

3. Metodología de evaluación

La referencia y la hipótesis son archivos WebVTT. Se extrae el texto de las cues y luego se normaliza (mayúsculas, puntuación, limpieza ligera) antes de puntuar.

Alineación a nivel de palabra

Las secuencias de tokens se alinean con un programa dinámico estilo Levenshtein; el retroceso produce sustituciones (S), borrados (D) e inserciones (I) frente a la longitud de referencia N.

[ \mathrm{WER} = \frac{S + D + I}{N}, \qquad \mathrm{Accuracy} = 1 - \mathrm{WER}. ]

Character Error Rate (CER)

Se elimina el espacio en blanco; la distancia de edición entre caracteres es la distancia de Levenshtein a nivel de carácter.

[ \mathrm{CER} = \frac{\text{Character edit distance}}{\text{Reference character count (no spaces)}}. ]

Real-Time Factor (RTF)

[ \mathrm{RTF} = \frac{\text{STT processing time}}{\text{Audio duration}}. ]

Un RTF inferior a 1 significa decodificar más rápido que en tiempo real en esta ejecución.

4. Panorama del modelo

Whisper large-v3-turbo apunta a alta calidad con mayor rendimiento respecto a variantes “large” más pesadas (el comportamiento depende de la implementación y del hardware). Es un ASR multilingüe de propósito general, adecuado para borradores de transcripción, búsqueda y borradores de subtítulos donde no se asume perfección literal. Este benchmark usa una configuración de decodificación registrada en other.yaml; no barre opciones de decodificación, VAD ni postprocesado.

5. Resultados (de `result.json`)

Métricas exactas:

Recuento de palabras de referencia (N): 9627
Sustituciones (S): 60
Borrados (D): 6449
Inserciones (I): 0
WER: 0.6761192479484782
Precisión: 0.3238807520515218
Recuento de caracteres de referencia: 38334
Distancia de edición de caracteres: 25696
CER: 0.6703187770647467
Duración del audio (segundos): 1059.8809999999999
Tiempo de procesamiento STT (segundos): 175
RTF: 0.16511287587946197
Tiempo de ejecución del script de evaluación (segundos): 25.612

Redondeado para lectura

WER ≈ 67,6 %; precisión ≈ 32,4 %
CER ≈ 67,0 %
~25,7k ediciones de carácter sobre ~38,3k caracteres de referencia
RTF ≈ 0,165× (unas 6× más rápido que en tiempo real)

6. Análisis del patrón de errores

Las inserciones son cero y los borrados superan con creces a las sustituciones (6449 frente a 60). No es el perfil habitual de “ASR ruidoso con palabras de relleno extra”; apunta a grandes tramos de texto de referencia no emparejados por la hipótesis bajo esta alineación — coherente con desajuste de longitud, segmentación distinta o referencia que abarca más contenido del que vio el ASR (p. ej., archivo de subtítulos frente a segmento de audio). CER ≈ 67 % refuerza que la brecha es amplia, no un puñado de cambios de palabras.

Para equipos de producto: no interpretar esto como “Whisper oyó mal el 68 % de las palabras” en sentido coloquial hasta confirmar la misma ventana de audio, el mismo idioma y normalización de texto comparable entre la exportación de subtítulos y la salida del modelo.

7. Ideas clave

Velocidad: RTF ≈ 0,17 es atractivo para procesar por lotes clips largos.
Precisión: ~68 % de WER no está listo para publicación sin revisión si se necesitan citas fieles.
Forma del error: Muchos borrados, cero inserciones — auditar emparejamiento y cobertura antes de afinar parámetros del modelo.
Realismo del escenario: ~18 minutos de inglés continuo de una fuente real de YouTube es más representativo que clips de juguete, pero sigue siendo un vídeo y un ajuste del modelo.
Elección de referencia: usar subtítulos de la plataforma ancla la prueba a una línea base visible para el espectador, que puede diferir de una retranscripción humana.

8. Mejor modelo para este escenario

En el alcance estrecho “large-v3-turbo en este clip, con subtítulos de YouTube como referencia”, la ejecución es una línea base documentada: fija el rendimiento (RTF) y el desajuste cuantitativo (WER/CER) para comparaciones posteriores. No es la afirmación de que este sea el mejor modelo para todo el contenido de YouTube en inglés.

9. Veredicto final neutral

Para borradores internos, etiquetado temático o búsqueda aproximada, un RTF bajo puede hacer usable esta pila si las partes interesadas aceptan las tasas de error y validan los pasajes críticos.

Para citas literales, cumplimiento o subtítulos críticos para accesibilidad, ~32 % de precisión a nivel de palabra y errores dominados por borrados implican que la revisión humana o las correcciones de alineación siguen siendo obligatorias. Vuelva a ejecutar el evaluador tras cualquier cambio en las entradas; la metodología sigue siendo comparable.

Materiales de origen

Nombre de carpeta del caso {case-name} = 20260329 (réplica bajo test-transcripts/ en el repositorio cuando publique los recursos).

Vídeo original (fuente de audio): https://www.youtube.com/watch?v=E73XCmLAFe8 — los subtítulos de referencia son los subtítulos proporcionados con este vídeo (exportados como ref.vtt).
Transcripción de referencia (VTT): test-transcripts/{case-name}/ref.vtt
Transcripción del modelo (VTT): test-transcripts/{case-name}/model.vtt
Metadatos de la ejecución: test-transcripts/{case-name}/other.yaml
Métricas de evaluación precalculadas: test-transcripts/{case-name}/result.json

La puntuación usa scripts/evaluate-vtt-metrics.js en este repositorio. Para transcripciones largas, ejecute Node con un límite de montículo aumentado si hace falta (p. ej. NODE_OPTIONS=--max-old-space-size=8192).

Whisper Large v3 Turbo en audio de YouTube en inglés — benchmark del 29 de marzo de 2026 (WER, CER, RTF)

1. Por qué importa este benchmark

2. Configuración de la prueba

3. Metodología de evaluación

4. Panorama del modelo

5. Resultados (de `result.json`)

6. Análisis del patrón de errores

7. Ideas clave

8. Mejor modelo para este escenario

9. Veredicto final neutral

Materiales de origen

Publicaciones relacionadas

Whisper Medium en audio de YouTube en inglés — Benchmark 2026-03-31 (WER, CER, RTF)

Whisper Medium en audio de YouTube en inglés — Benchmark 2026-03-30 (WER, CER, RTF)

Whisper Large v3 Turbo en una entrevista en inglés — benchmark del 28 de marzo de 2026 (WER, CER, RTF)

Pruébalo gratis ahora

Whisper Large v3 Turbo en audio de YouTube en inglés — benchmark del 29 de marzo de 2026 (WER, CER, RTF)

1. Por qué importa este benchmark

2. Configuración de la prueba

3. Metodología de evaluación

4. Panorama del modelo

5. Resultados (de result.json)

6. Análisis del patrón de errores

7. Ideas clave

8. Mejor modelo para este escenario

9. Veredicto final neutral

Materiales de origen

Publicaciones relacionadas

Whisper Medium en audio de YouTube en inglés — Benchmark 2026-03-31 (WER, CER, RTF)

Whisper Medium en audio de YouTube en inglés — Benchmark 2026-03-30 (WER, CER, RTF)

Whisper Large v3 Turbo en una entrevista en inglés — benchmark del 28 de marzo de 2026 (WER, CER, RTF)

Pruébalo gratis ahora

5. Resultados (de `result.json`)