
Whisper Large v3 Turbo en audio de YouTube en inglés — benchmark del 29 de marzo de 2026 (WER, CER, RTF)
2026-03-29Test
Eric King
Author
Esta nota recoge una ejecución de configuración fija sobre audio en inglés de unos 18 minutos extraído de una subida de YouTube. El evaluador informa WER ≈ 67,6 % con dominio de borrados (6 449 frente a 60 sustituciones, 0 inserciones). Ese perfil sugiere que la transcripción hipótesis encaja mal en cobertura con la referencia — a menudo cuando la referencia es la pista de subtítulos de la plataforma y la salida del ASR refleja otra segmentación u otra duración — por lo que las cifras deben leerse como diagnóstico, no como una “puntuación de precisión” pulida de forma aislada.
Vídeo y texto de referencia. El WebVTT de referencia (
ref.vtt) es el texto de subtítulos suministrado con el vídeo de origen (exportado como WebVTT). La hipótesis (model.vtt) es Whisper large-v3-turbo sobre el mismo audio subyacente. Las métricas comparan esos subtítulos con esta ejecución de ASR: una línea base práctica para “qué tan cerca está nuestra canalización de lo que YouTube ofrece como subtítulos”, no una afirmación sobre verdad de referencia verificada por humanos.1. Por qué importa este benchmark
El habla estilo YouTube está en todas partes en flujos reales: calidad de micrófono variable, bases musicales, cortes y monólogos o diálogos largos. Evaluar el ASR con subtítulos reales de la plataforma como referencia responde a una pregunta concreta: si ejecutamos nuestra propia pila basada en Whisper sobre el mismo audio, ¿cuánto se aleja el texto de lo que los espectadores ya ven como subtítulos? Es útil para QA de subtítulos, reutilización de contenido e indexación de búsqueda — ámbitos donde “suficientemente bueno” depende del producto, pero los números deben ser reproducibles.
2. Configuración de la prueba
Los valores siguientes provienen de
other.yaml y result.json para este caso (modo directorio para que los metadatos YAML se adjunten a la salida del evaluador).| Field | Value |
|---|---|
| Source | YouTube video (audio aligned to that upload) |
| Date (processing window) | 2026-03-29 (processtime-at → completed-at in other.yaml) |
| Language | English |
| Whisper model | large-v3-turbo |
| Audio duration (YAML label) | 17:39 |
| Audio duration (scorer, from VTT) | 1059.88 s (≈ 17.7 minutes) |
| STT processing time | 175 s (sttProcessingTimeSeconds in result.json, from YAML timestamps) |
| RTF | 0.165 (from result.json) |
Intervalo de reloj de pared en YAML: 2026-03-29 16:04:37 → 2026-03-29 16:07:32 (coherente con 175 s de tiempo de procesamiento).
3. Metodología de evaluación
La referencia y la hipótesis son archivos WebVTT. Se extrae el texto de las cues y luego se normaliza (mayúsculas, puntuación, limpieza ligera) antes de puntuar.
Alineación a nivel de palabra
Las secuencias de tokens se alinean con un programa dinámico estilo Levenshtein; el retroceso produce sustituciones (S), borrados (D) e inserciones (I) frente a la longitud de referencia N.
[
\mathrm{WER} = \frac{S + D + I}{N}, \qquad \mathrm{Accuracy} = 1 - \mathrm{WER}.
]
Character Error Rate (CER)
Se elimina el espacio en blanco; la distancia de edición entre caracteres es la distancia de Levenshtein a nivel de carácter.
[
\mathrm{CER} = \frac{\text{Character edit distance}}{\text{Reference character count (no spaces)}}.
]
Real-Time Factor (RTF)
[
\mathrm{RTF} = \frac{\text{STT processing time}}{\text{Audio duration}}.
]
Un RTF inferior a 1 significa decodificar más rápido que en tiempo real en esta ejecución.
4. Panorama del modelo
Whisper large-v3-turbo apunta a alta calidad con mayor rendimiento respecto a variantes “large” más pesadas (el comportamiento depende de la implementación y del hardware). Es un ASR multilingüe de propósito general, adecuado para borradores de transcripción, búsqueda y borradores de subtítulos donde no se asume perfección literal. Este benchmark usa una configuración de decodificación registrada en
other.yaml; no barre opciones de decodificación, VAD ni postprocesado.5. Resultados (de result.json)
Métricas exactas:
- Recuento de palabras de referencia (N): 9627
- Sustituciones (S): 60
- Borrados (D): 6449
- Inserciones (I): 0
- WER: 0.6761192479484782
- Precisión: 0.3238807520515218
- Recuento de caracteres de referencia: 38334
- Distancia de edición de caracteres: 25696
- CER: 0.6703187770647467
- Duración del audio (segundos): 1059.8809999999999
- Tiempo de procesamiento STT (segundos): 175
- RTF: 0.16511287587946197
- Tiempo de ejecución del script de evaluación (segundos): 25.612
Redondeado para lectura
- WER ≈ 67,6 %; precisión ≈ 32,4 %
- CER ≈ 67,0 %
- ~25,7k ediciones de carácter sobre ~38,3k caracteres de referencia
- RTF ≈ 0,165× (unas 6× más rápido que en tiempo real)
6. Análisis del patrón de errores
Las inserciones son cero y los borrados superan con creces a las sustituciones (6449 frente a 60). No es el perfil habitual de “ASR ruidoso con palabras de relleno extra”; apunta a grandes tramos de texto de referencia no emparejados por la hipótesis bajo esta alineación — coherente con desajuste de longitud, segmentación distinta o referencia que abarca más contenido del que vio el ASR (p. ej., archivo de subtítulos frente a segmento de audio). CER ≈ 67 % refuerza que la brecha es amplia, no un puñado de cambios de palabras.
Para equipos de producto: no interpretar esto como “Whisper oyó mal el 68 % de las palabras” en sentido coloquial hasta confirmar la misma ventana de audio, el mismo idioma y normalización de texto comparable entre la exportación de subtítulos y la salida del modelo.
7. Ideas clave
- Velocidad: RTF ≈ 0,17 es atractivo para procesar por lotes clips largos.
- Precisión: ~68 % de WER no está listo para publicación sin revisión si se necesitan citas fieles.
- Forma del error: Muchos borrados, cero inserciones — auditar emparejamiento y cobertura antes de afinar parámetros del modelo.
- Realismo del escenario: ~18 minutos de inglés continuo de una fuente real de YouTube es más representativo que clips de juguete, pero sigue siendo un vídeo y un ajuste del modelo.
- Elección de referencia: usar subtítulos de la plataforma ancla la prueba a una línea base visible para el espectador, que puede diferir de una retranscripción humana.
8. Mejor modelo para este escenario
En el alcance estrecho “large-v3-turbo en este clip, con subtítulos de YouTube como referencia”, la ejecución es una línea base documentada: fija el rendimiento (RTF) y el desajuste cuantitativo (WER/CER) para comparaciones posteriores. No es la afirmación de que este sea el mejor modelo para todo el contenido de YouTube en inglés.
9. Veredicto final neutral
Para borradores internos, etiquetado temático o búsqueda aproximada, un RTF bajo puede hacer usable esta pila si las partes interesadas aceptan las tasas de error y validan los pasajes críticos.
Para citas literales, cumplimiento o subtítulos críticos para accesibilidad, ~32 % de precisión a nivel de palabra y errores dominados por borrados implican que la revisión humana o las correcciones de alineación siguen siendo obligatorias. Vuelva a ejecutar el evaluador tras cualquier cambio en las entradas; la metodología sigue siendo comparable.
Materiales de origen
Nombre de carpeta del caso
{case-name} = 20260329 (réplica bajo test-transcripts/ en el repositorio cuando publique los recursos).- Vídeo original (fuente de audio): https://www.youtube.com/watch?v=E73XCmLAFe8 — los subtítulos de referencia son los subtítulos proporcionados con este vídeo (exportados como
ref.vtt). - Transcripción de referencia (VTT):
test-transcripts/{case-name}/ref.vtt - Transcripción del modelo (VTT):
test-transcripts/{case-name}/model.vtt - Metadatos de la ejecución:
test-transcripts/{case-name}/other.yaml - Métricas de evaluación precalculadas:
test-transcripts/{case-name}/result.json
La puntuación usa
scripts/evaluate-vtt-metrics.js en este repositorio. Para transcripciones largas, ejecute Node con un límite de montículo aumentado si hace falta (p. ej. NODE_OPTIONS=--max-old-space-size=8192).