
Whisper Large v3 Turbo на англоязычном аудио с YouTube — бенчмарк от 29 марта 2026 г. (WER, CER, RTF)
2026-03-29Test
Eric King
Author
Эта заметка фиксирует один прогон в фиксированной конфигурации на англоязычном аудио длительностью примерно 18 минут, взятом с загрузки YouTube. Скорер сообщает WER ≈ 67,6% с доминированием удалений (6 449 против 60 замен, 0 вставок). Такой профиль указывает на плохое совпадение гипотезы с эталоном по покрытию — часто, когда эталон — дорожка субтитров платформы, а вывод ASR отражает другую сегментацию или длину — поэтому цифры следует читать как диагностические, а не как отполированный «показатель точности» сами по себе.
Видео и эталонный текст. Эталонный WebVTT (
ref.vtt) — это текст субтитров, поставляемый с исходным видео (экспортированный как WebVTT). Гипотеза (model.vtt) — это Whisper large-v3-turbo на том же исходном аудио. Метрики сравнивают эти субтитры с этим прогоном ASR — практический базис для вопроса «насколько наш пайплайн близок к тому, что YouTube отдаёт зрителям как субтитры», а не утверждение о проверенной людьми истинной разметке.1. Зачем нужен этот бенчмарк
Речь в духе YouTube повсюду в реальных сценариях: нестабильное качество микрофона, музыкальные подложки, склейки и длинные монологи или диалоги. Оценка ASR с реальными субтитрами платформы как эталоном отвечает на конкретный вопрос: если мы прогоняем наш собственный стек на Whisper по тому же аудио, насколько текст расходится с тем, что зрители уже видят как субтитры? Это полезно для QA субтитров, переиспользования контента и поисковой индексации — областей, где «достаточно хорошо» зависит от продукта, но числа должны быть воспроизводимыми.
2. Настройка теста
Значения ниже взяты из
other.yaml и result.json для этого случая (режим каталога, чтобы YAML-метаданные прикреплялись к выводу скорера).| Field | Value |
|---|---|
| Source | YouTube video (audio aligned to that upload) |
| Date (processing window) | 2026-03-29 (processtime-at → completed-at in other.yaml) |
| Language | English |
| Whisper model | large-v3-turbo |
| Audio duration (YAML label) | 17:39 |
| Audio duration (scorer, from VTT) | 1059.88 s (≈ 17.7 minutes) |
| STT processing time | 175 s (sttProcessingTimeSeconds in result.json, from YAML timestamps) |
| RTF | 0.165 (from result.json) |
Интервал по настенным часам в YAML: 2026-03-29 16:04:37 → 2026-03-29 16:07:32 (согласуется с 175 с времени обработки).
3. Методика оценки
Эталон и гипотеза — файлы WebVTT. Текст реплик извлекается, затем нормализуется (регистр, пунктуация, лёгкая очистка) перед подсчётом.
Выравнивание на уровне слов
Последовательности токенов выравниваются динамическим программированием в духе Левенштейна; обратный проход даёт замены (S), удаления (D) и вставки (I) относительно длины эталона N.
[
\mathrm{WER} = \frac{S + D + I}{N}, \qquad \mathrm{Accuracy} = 1 - \mathrm{WER}.
]
Character Error Rate (CER)
Пробелы удаляются; редакционное расстояние по символам — расстояние Левенштейна на уровне символов.
[
\mathrm{CER} = \frac{\text{Character edit distance}}{\text{Reference character count (no spaces)}}.
]
Real-Time Factor (RTF)
[
\mathrm{RTF} = \frac{\text{STT processing time}}{\text{Audio duration}}.
]
RTF ниже 1 означает декодирование быстрее реального времени в этом прогоне.
4. Обзор модели
Whisper large-v3-turbo ориентирован на высокое качество при улучшенной пропускной способности по сравнению с более тяжёлыми вариантами «large» (поведение зависит от реализации и железа). Это универсальный многоязычный ASR для черновых транскриптов, поиска и черновых субтитров, где дословная идеальность не предполагается. В этом бенчмарке используется одна конфигурация декодирования из
other.yaml; нет перебора опций декодирования, VAD или постобработки.5. Результаты (из result.json)
Точные метрики:
- Число слов эталона (N): 9627
- Замены (S): 60
- Удаления (D): 6449
- Вставки (I): 0
- WER: 0.6761192479484782
- Точность (Accuracy): 0.3238807520515218
- Число символов эталона: 38334
- Редакционное расстояние по символам: 25696
- CER: 0.6703187770647467
- Длительность аудио (секунды): 1059.8809999999999
- Время обработки STT (секунды): 175
- RTF: 0.16511287587946197
- Время выполнения скрипта оценки (секунды): 25.612
Округлённо для чтения
- WER ≈ 67,6%; точность ≈ 32,4%
- CER ≈ 67,0%
- ~25,7k правок символов на ~38,3k символов эталона
- RTF ≈ 0,165× (примерно в 6× быстрее реального времени)
6. Анализ профиля ошибок
Вставок ноль, а удалений на порядок больше, чем замен (6449 против 60). Это не обычный профиль «шумного ASR с лишними словами-паразитами»; он указывает на большие фрагменты эталонного текста, не сопоставленные с гипотезой при таком выравнивании — согласуется с несовпадением длины, другой сегментацией или эталоном, охватывающим больше контента, чем услышал ASR (например, файл субтитров против сегмента аудио). CER ≈ 67% подчёркивает, что разрыв широкий, а не пара обменов словами.
Для продуктовых команд: не интерпретируйте это как «Whisper неправильно распознал 68% слов» в бытовом смысле, пока не подтверждены то же аудиоокно, тот же язык и сопоставимая нормализация текста между экспортом субтитров и выводом модели.
7. Ключевые выводы
- Скорость: RTF ≈ 0,17 привлекателен для пакетной обработки длинных клипов.
- Точность: ~68% WER не готово к публикации без ревью, если нужны точные цитаты.
- Форма ошибок: преобладают удаления, вставок нет — проверьте сопоставление и покрытие до тонкой настройки модели.
- Реалистичность сценария: ~18 минут непрерывного английского из реального источника YouTube репрезентативнее игрушечных клипов, но это по-прежнему одно видео и одна настройка модели.
- Выбор эталона: субтитры платформы привязывают тест к видимой зрителю базовой линии, которая может отличаться от повторной расшифровки человеком.
8. Лучшая модель для этого сценария
В узком смысле «large-v3-turbo на этом клипе с субтитрами YouTube как эталон» прогон — это зафиксированная базовая линия: заданы пропускная способность (RTF) и количественное расхождение (WER/CER) для последующих сравнений. Это не утверждение, что это лучшая модель для всего англоязычного контента на YouTube.
9. Нейтральный итог
Для внутренних черновиков, тематических тегов или грубого поиска низкий RTF может сделать стек пригодным, если стейкхолдеры принимают уровни ошибок и проверяют критические фрагменты.
Для дословного цитирования, комплаенса или субтитров, критичных для доступности, ~32% точности на уровне слов и ошибки с доминированием удалений означают, что человеческая проверка или исправления выравнивания остаются обязательными. Перезапускайте скорер после любых изменений входов; методика остаётся сопоставимой.
Исходные материалы
Имя папки кейса
{case-name} = 20260329 (зеркало под test-transcripts/ в репозитории при публикации артефактов).- Исходное видео (источник аудио): https://www.youtube.com/watch?v=E73XCmLAFe8 — эталонные субтитры — это субтитры, поставляемые с этим видео (экспортированные как
ref.vtt). - Эталонная расшифровка (VTT):
test-transcripts/{case-name}/ref.vtt - Расшифровка модели (VTT):
test-transcripts/{case-name}/model.vtt - Метаданные прогона:
test-transcripts/{case-name}/other.yaml - Предвычисленные метрики оценки:
test-transcripts/{case-name}/result.json
Подсчёт использует
scripts/evaluate-vtt-metrics.js в этом репозитории. Для длинных транскриптов при необходимости запускайте Node с увеличенным лимитом кучи (например NODE_OPTIONS=--max-old-space-size=8192).