Whisper Large v3 Turbo en audio de YouTube en inglés — benchmark del 29 de marzo de 2026 (WER, CER, RTF)

Whisper Large v3 Turbo en audio de YouTube en inglés — benchmark del 29 de marzo de 2026 (WER, CER, RTF)

2026-03-29Test
Eric King

Eric King

Author


Esta nota recoge una ejecución de configuración fija sobre audio en inglés de unos 18 minutos extraído de una subida de YouTube. El evaluador informa WER ≈ 67,6 % con dominio de borrados (6 449 frente a 60 sustituciones, 0 inserciones). Ese perfil sugiere que la transcripción hipótesis encaja mal en cobertura con la referencia — a menudo cuando la referencia es la pista de subtítulos de la plataforma y la salida del ASR refleja otra segmentación u otra duración — por lo que las cifras deben leerse como diagnóstico, no como una “puntuación de precisión” pulida de forma aislada.
Vídeo y texto de referencia. El WebVTT de referencia (ref.vtt) es el texto de subtítulos suministrado con el vídeo de origen (exportado como WebVTT). La hipótesis (model.vtt) es Whisper large-v3-turbo sobre el mismo audio subyacente. Las métricas comparan esos subtítulos con esta ejecución de ASR: una línea base práctica para “qué tan cerca está nuestra canalización de lo que YouTube ofrece como subtítulos”, no una afirmación sobre verdad de referencia verificada por humanos.

1. Por qué importa este benchmark

El habla estilo YouTube está en todas partes en flujos reales: calidad de micrófono variable, bases musicales, cortes y monólogos o diálogos largos. Evaluar el ASR con subtítulos reales de la plataforma como referencia responde a una pregunta concreta: si ejecutamos nuestra propia pila basada en Whisper sobre el mismo audio, ¿cuánto se aleja el texto de lo que los espectadores ya ven como subtítulos? Es útil para QA de subtítulos, reutilización de contenido e indexación de búsqueda — ámbitos donde “suficientemente bueno” depende del producto, pero los números deben ser reproducibles.

2. Configuración de la prueba

Los valores siguientes provienen de other.yaml y result.json para este caso (modo directorio para que los metadatos YAML se adjunten a la salida del evaluador).
FieldValue
SourceYouTube video (audio aligned to that upload)
Date (processing window)2026-03-29 (processtime-atcompleted-at in other.yaml)
LanguageEnglish
Whisper modellarge-v3-turbo
Audio duration (YAML label)17:39
Audio duration (scorer, from VTT)1059.88 s (≈ 17.7 minutes)
STT processing time175 s (sttProcessingTimeSeconds in result.json, from YAML timestamps)
RTF0.165 (from result.json)
Intervalo de reloj de pared en YAML: 2026-03-29 16:04:372026-03-29 16:07:32 (coherente con 175 s de tiempo de procesamiento).

3. Metodología de evaluación

La referencia y la hipótesis son archivos WebVTT. Se extrae el texto de las cues y luego se normaliza (mayúsculas, puntuación, limpieza ligera) antes de puntuar.
Alineación a nivel de palabra
Las secuencias de tokens se alinean con un programa dinámico estilo Levenshtein; el retroceso produce sustituciones (S), borrados (D) e inserciones (I) frente a la longitud de referencia N.
[ \mathrm{WER} = \frac{S + D + I}{N}, \qquad \mathrm{Accuracy} = 1 - \mathrm{WER}. ]
Character Error Rate (CER)
Se elimina el espacio en blanco; la distancia de edición entre caracteres es la distancia de Levenshtein a nivel de carácter.
[ \mathrm{CER} = \frac{\text{Character edit distance}}{\text{Reference character count (no spaces)}}. ]
Real-Time Factor (RTF)
[ \mathrm{RTF} = \frac{\text{STT processing time}}{\text{Audio duration}}. ]
Un RTF inferior a 1 significa decodificar más rápido que en tiempo real en esta ejecución.

4. Panorama del modelo

Whisper large-v3-turbo apunta a alta calidad con mayor rendimiento respecto a variantes “large” más pesadas (el comportamiento depende de la implementación y del hardware). Es un ASR multilingüe de propósito general, adecuado para borradores de transcripción, búsqueda y borradores de subtítulos donde no se asume perfección literal. Este benchmark usa una configuración de decodificación registrada en other.yaml; no barre opciones de decodificación, VAD ni postprocesado.

5. Resultados (de result.json)

Métricas exactas:
  • Recuento de palabras de referencia (N): 9627
  • Sustituciones (S): 60
  • Borrados (D): 6449
  • Inserciones (I): 0
  • WER: 0.6761192479484782
  • Precisión: 0.3238807520515218
  • Recuento de caracteres de referencia: 38334
  • Distancia de edición de caracteres: 25696
  • CER: 0.6703187770647467
  • Duración del audio (segundos): 1059.8809999999999
  • Tiempo de procesamiento STT (segundos): 175
  • RTF: 0.16511287587946197
  • Tiempo de ejecución del script de evaluación (segundos): 25.612
Redondeado para lectura
  • WER ≈ 67,6 %; precisión ≈ 32,4 %
  • CER ≈ 67,0 %
  • ~25,7k ediciones de carácter sobre ~38,3k caracteres de referencia
  • RTF ≈ 0,165× (unas más rápido que en tiempo real)

6. Análisis del patrón de errores

Las inserciones son cero y los borrados superan con creces a las sustituciones (6449 frente a 60). No es el perfil habitual de “ASR ruidoso con palabras de relleno extra”; apunta a grandes tramos de texto de referencia no emparejados por la hipótesis bajo esta alineación — coherente con desajuste de longitud, segmentación distinta o referencia que abarca más contenido del que vio el ASR (p. ej., archivo de subtítulos frente a segmento de audio). CER ≈ 67 % refuerza que la brecha es amplia, no un puñado de cambios de palabras.
Para equipos de producto: no interpretar esto como “Whisper oyó mal el 68 % de las palabras” en sentido coloquial hasta confirmar la misma ventana de audio, el mismo idioma y normalización de texto comparable entre la exportación de subtítulos y la salida del modelo.

7. Ideas clave

  • Velocidad: RTF ≈ 0,17 es atractivo para procesar por lotes clips largos.
  • Precisión: ~68 % de WER no está listo para publicación sin revisión si se necesitan citas fieles.
  • Forma del error: Muchos borrados, cero inserciones — auditar emparejamiento y cobertura antes de afinar parámetros del modelo.
  • Realismo del escenario: ~18 minutos de inglés continuo de una fuente real de YouTube es más representativo que clips de juguete, pero sigue siendo un vídeo y un ajuste del modelo.
  • Elección de referencia: usar subtítulos de la plataforma ancla la prueba a una línea base visible para el espectador, que puede diferir de una retranscripción humana.

8. Mejor modelo para este escenario

En el alcance estrecho “large-v3-turbo en este clip, con subtítulos de YouTube como referencia”, la ejecución es una línea base documentada: fija el rendimiento (RTF) y el desajuste cuantitativo (WER/CER) para comparaciones posteriores. No es la afirmación de que este sea el mejor modelo para todo el contenido de YouTube en inglés.

9. Veredicto final neutral

Para borradores internos, etiquetado temático o búsqueda aproximada, un RTF bajo puede hacer usable esta pila si las partes interesadas aceptan las tasas de error y validan los pasajes críticos.
Para citas literales, cumplimiento o subtítulos críticos para accesibilidad, ~32 % de precisión a nivel de palabra y errores dominados por borrados implican que la revisión humana o las correcciones de alineación siguen siendo obligatorias. Vuelva a ejecutar el evaluador tras cualquier cambio en las entradas; la metodología sigue siendo comparable.

Materiales de origen

Nombre de carpeta del caso {case-name} = 20260329 (réplica bajo test-transcripts/ en el repositorio cuando publique los recursos).
  • Vídeo original (fuente de audio): https://www.youtube.com/watch?v=E73XCmLAFe8 — los subtítulos de referencia son los subtítulos proporcionados con este vídeo (exportados como ref.vtt).
  • Transcripción de referencia (VTT): test-transcripts/{case-name}/ref.vtt
  • Transcripción del modelo (VTT): test-transcripts/{case-name}/model.vtt
  • Metadatos de la ejecución: test-transcripts/{case-name}/other.yaml
  • Métricas de evaluación precalculadas: test-transcripts/{case-name}/result.json
La puntuación usa scripts/evaluate-vtt-metrics.js en este repositorio. Para transcripciones largas, ejecute Node con un límite de montículo aumentado si hace falta (p. ej. NODE_OPTIONS=--max-old-space-size=8192).

Pruébalo gratis ahora

Prueba ahora nuestro servicio de voz y audio/vídeo con IA. Disfruta de transcripción de voz a texto de alta precisión, traducción multilingüe y diarización inteligente de hablantes, además de generación automática de subtítulos de vídeo, edición inteligente de contenido audiovisual y análisis sincronizado de audio e imagen. Cubre por completo casos como actas de reuniones, creación de vídeos cortos y producción de pódcasts. ¡Empieza tu prueba gratuita hoy mismo!

Sonido a Texto OnlineSonido a Texto GratisConvertidor de Sonido a TextoSonido a Texto MP3Sonido a Texto WAVSonido a Texto con Marcas de TiempoVoz a texto para reunionesSound to Text Multi LanguageSonido a Texto SubtítulosConvertir WAV a textoVoz a TextoVoz a Texto en LíneaVoz a textoConvertir MP3 a textoConvertir grabación de voz a textoEscritura por Voz OnlineVoz a Texto con Marcas de TiempoVoz a Texto en Tiempo RealVoz a Texto para Audio LargoVoz a Texto para VideoVoz a Texto para YouTubeVoz a Texto para Edición de VideoVoz a Texto para SubtítulosVoz a Texto para PodcastsVoz a Texto para EntrevistasAudio de Entrevista a TextoVoz a Texto para GrabacionesVoz a Texto para ReunionesVoz a Texto para ConferenciasVoz a Texto para NotasVoz a Texto MultiidiomaVoz a Texto PrecisaVoz a Texto RápidaAlternativa Premiere Pro Voz a TextoAlternativa DaVinci Voz a TextoAlternativa VEED Voz a TextoAlternativa InVideo Voz a TextoAlternativa Otter.ai Voz a TextoAlternativa Descript Voz a TextoAlternativa Trint Voz a TextoAlternativa Rev Voz a TextoAlternativa Sonix Voz a TextoAlternativa Happy Scribe Voz a TextoAlternativa Zoom Voz a TextoAlternativa Google Meet Voz a TextoAlternativa Microsoft Teams Voz a TextoAlternativa Fireflies.ai Voz a TextoAlternativa Fathom Voz a TextoAlternativa FlexClip Voz a TextoAlternativa Kapwing Voz a TextoAlternativa Canva Voz a TextoVoz a Texto para Audio LargoVoz a Texto con IAVoz a Texto GratisVoz a Texto Sin AnunciosVoz a Texto para Audio con RuidoVoz a Texto con TiempoGenerar Subtítulos desde AudioTranscripción de Podcasts OnlineTranscribir Llamadas de ClientesVoz de TikTok a TextoAudio de TikTok a TextoVoz de YouTube a TextoAudio de YouTube a TextoNota de Voz a TextoMensaje de Voz de WhatsApp a TextoMensaje de Voz de Telegram a TextoTranscripción de Llamadas DiscordVoz de Twitch a TextoVoz de Skype a TextoVoz de Messenger a TextoMensaje de Voz de LINE a TextoTranscribir Vlogs a TextoConvertir Audio de Sermón a TextoConvertir Habla en EscrituraTraducir Audio a TextoConvertir Notas de Audio a TextoEscritura por VozEscritura por Voz para ReunionesEscritura por Voz para YouTubeHablar para EscribirEscritura Sin ManosVoz a PalabrasHabla a PalabrasHabla a Texto en LíneaOnline Transcription SoftwareHabla a Texto para ReunionesHabla a Texto RápidoReal Time Speech to TextLive Transcription AppHabla a Texto para TikTokSonido a Texto para TikTokHablar a PalabrasHablar a TextoTalk to Text FreeTalk to Text OnlineTalk to Text for YouTubeTalk to Text for SubtitlesTalk to Text for Content CreatorsTalk to Text for MeetingsAudio a EscrituraSonido a TextoHerramienta de Escritura por VozHerramienta de Escritura por HablaDictado por VozHerramienta de Transcripción LegalHerramienta de Dictado MédicoTranscripción de Audio JaponésTranscripción de Reuniones en CoreanoHerramienta de Transcripción de ReunionesAudio de Reunión a TextoConvertidor de Conferencias a TextoAudio de Conferencia a TextoTranscripción de Video a TextoGenerador de Subtítulos para TikTokTranscripción de Centro de LlamadasHerramienta de Audio de Reels a TextoTranscribir MP3 a TextoTranscribir archivo WAV a textoCapCut Voz a TextoCapCut Voz a TextoVoice to Text in EnglishAudio a Texto en InglésVoice to Text in SpanishVoice to Text in FrenchAudio a Texto en FrancésVoice to Text in GermanAudio a Texto en AlemánVoice to Text in JapaneseAudio a Texto en JaponésVoice to Text in KoreanAudio a Texto en CoreanoVoice to Text in PortugueseVoice to Text in ArabicVoice to Text in ChineseVoice to Text in HindiVoice to Text in RussianWeb Voice Typing ToolVoice Typing Website