
Whisper Large v3 Turbo на англоязычном интервью — бенчмарк от 28 марта 2026 г. (WER, CER, RTF)
2026-03-28Test
Eric King
Author
Эта заметка описывает один прогон с фиксированной конфигурацией на англоязычном аудио в стиле интервью (~8,5 минут). Скорер сообщает WER около 69%, причём удаления доминируют в бюджете ошибок (2192 удаления против 188 замен, 0 вставок). Такой профиль обычно означает, что гипотеза покрывает ссылку гораздо слабее, чем типичная «шумная, но полная» расшифровка; цифры следует читать как диагностические, вместе с ручной проверкой, что вывод модели и эталон описывают одну и ту же запись и сегментацию.
Видео и эталонный текст. Тестируемое аудио взято из исходного видео (ссылка ниже). Опорный WebVTT (
ref.vtt) — это дорожка субтитров, поставляемая с этим видео, экспортированная или сохранённая как WebVTT с платформы, а не независимо подготовленная «золотая» расшифровка. Гипотеза (model.vtt) — это ASR Whisper large-v3-turbo на том же аудио. Метрики сравнивают субтитры платформы с этим прогоном ASR — практичный базис, но не то же самое, что оценка относительно вручную курируемых исследовательских транскриптов.1. Зачем нужен этот бенчмарк
Интервью-аудио нагружает ASR перекрытием речи, неравномерным темпом, именами и числами — типичные условия редакционной и исследовательской работы. Публикация id модели, языка, длительности, меток времени и стандартных метрик делает прогон сопоставимым с повторными запусками или другими пайплайнами; цель — прозрачность, а не продуктовое обещание.
2. Настройка теста
Если не указано иное, значения ниже взяты из
other.yaml и result.json для этого случая.| Поле | Значение |
|---|---|
| Дата (окно обработки) | 2026-03-28 (см. processtime-at / completed-at в other.yaml) |
| Сценарий | Контент в стиле англоязычного интервью (тег языка: English) |
| Модель Whisper | large-v3-turbo (whisper-model в other.yaml) |
| Длительность аудио (YAML) | 08:25 (метка 8 мин 25 с по настенным часам) |
| Длительность аудио (скорер) | 506.88 с (из диапазона cue опорного VTT в result.json) |
| Интервал обработки по настенным часам | processtime-at: 2026-03-28 09:56:40.204 → completed-at: 2026-03-28 09:57:57.000 |
| Производное время STT | ≈ 76.8 с (разница двух меток выше; не хранится в result.json, так как этот прогон использовал явный режим VTT без YAML, прикреплённого к выводу скорера) |
| Производный RTF | ≈ 0.151 (время обработки ÷ 506.88 с длительности аудио) |
Примечание: в
result.json для этого явного двухфайлового прогона указано "yamlMeta": null; RTF там null. Время обработки и RTF в статье пересчитаны из other.yaml для согласованности с разделом методологии.3. Методология оценки
Эталон и гипотеза — файлы WebVTT. Из cue извлекается простой текст (временные метки и индексы удаляются), затем выполняется нормализация (регистр, пунктуация и простая типографика) перед подсчётом.
Выравнивание на уровне слов
Эталон и гипотеза выравниваются как последовательности токенов. Стандартная динамическая программа в духе Левенштейна находит путь минимальной стоимости между двумя последовательностями слов; обратный проход даёт числа замен (S), удалений (D) и вставок (I) относительно длины эталона N.
WER и точность
Пусть (S), (D) и (I) — числа замен, удалений и вставок, а (N) — число слов эталона.
[
\mathrm{WER} = \frac{S + D + I}{N}, \qquad \mathrm{Accuracy} = 1 - \mathrm{WER}.
]
CER
Пробельные символы удаляются из нормализованных строк. Расстояние редактирования на уровне символов — это расстояние Левенштейна на уровне символов; число символов эталона — длина эталонной строки без пробелов.
[
\mathrm{CER} = \frac{\text{Character edit distance}}{\text{Reference character count}}.
]
RTF
[
\mathrm{RTF} = \frac{\text{Processing time (seconds)}}{\text{Audio duration (seconds)}}.
]
RTF ниже 1 означает, что декодирование было быстрее реального времени на этом железе/в этом прогоне.
4. Обзор модели
Whisper large-v3-turbo относится к семейству «large» и обменивает часть вычислений на пропускную способность по сравнению с полными large-чекпоинтами (точное поведение зависит от реализации и железа). Это универсальный многоязычный ASR для черновиков и поисковой индексации, где не предполагается идеальная точность. Этот тест — одна конфигурация из
other.yaml; без перебора температуры, чанкинга или VAD.5. Результаты (из result.json)
Точные значения из предвычисленного объекта метрик:
- Число слов эталона (N): 3442
- Замены (S): 188
- Удаления (D): 2192
- Вставки (I): 0
- WER: 0.6914584543869843
- Точность: 0.3085415456130157
- Число символов эталона: 15790
- Расстояние редактирования символов: 10494
- CER: 0.664597846738442
- Длительность аудио (секунды): 506.88
- Время STT (в JSON):
null(см. раздел 2 для длительности из YAML) - RTF (в JSON):
null(производный RTF ≈ 0.151 по меткам YAML) - Время работы eval-скрипта: 3.11 с
Округлённо для чтения
- WER ≈ 69.1%; точность ≈ 30.9%
- CER ≈ 66.5%
- ~10.5k правок символов на ~15.8k символов эталона
- RTF ≈ 0.15× (быстрее реального времени на этом фрагменте, с временем из YAML)
6. Анализ структуры ошибок
При I = 0 гипотеза не добавляет лишних слов относительно этого выравнивания; почти вся масса ошибок на уровне слов — удаления и замены, причём уделения на порядок больше замен (2192 против 188).
Практическая интерпретация:
- Профили с преобладанием удалений часто указывают на пропущенные фрагменты в гипотезе (обработка тишины, ранняя остановка, другая длина клипа или эталон длиннее фактически транскрибированного аудио).
- Ноль вставок редко встречается в «грязном» реальном ASR; вместе с экстремальным WER это сигнал проверить сопоставление данных (тот же файл, язык, редакция эталона), прежде чем списывать оценку только на «качество модели».
CER ~66% согласуется с длинными участками текста, которые не совпадают между эталоном и гипотезой, а не только с редкими перестановками слов.
7. Ключевые выводы
- Скорость: производный RTF ≈ 0.15 говорит о том, что стек завершил работу за долю реального времени на этом фрагменте — полезно там, где важна задержка, независимо от сырого WER.
- Точность: WER ~69% недостаточен для публикуемых цитат или юридического уровня расшифровок без серьёзной человеческой вычитки.
- Форма ошибок: доминируют удаления; сначала разбирайтесь с покрытием и выравниванием сегментов, затем подбирайте гиперпараметры декодирования.
- Ограничение одной выборки: одно интервью и одна конфигурация модели не задают ожидаемую производственную точность по акцентам, кодекам или шуму.
- Воспроизводимость: хранение всех четырёх артефактов вместе сохраняет замороженный снимок.
8. Лучшая модель для этого сценария
Только для этого клипа и этого эталона Whisper large-v3-turbo — задокументированная базовая линия: метки времени описывают пропускную способность; WER/CER — расхождение с вашим эталоном. Не утверждается, что это лучшая модель для всех англоязычных интервью.
9. Нейтральный итог
Для черновых заметок, внутреннего поиска или грубой индексации, где ошибки приемлемы и важна скорость, низкий RTF и сохранённая расшифровка могут оставаться пригодными при явных оговорках.
Для цитирования участников, процессов с требованиями соответствия или архивной публикации ~31% словесной точности этого прогона и профиль с преобладанием удалений означают, что нужно закладывать человеческую вычитку или другой захват/выравнивание эталона, пока оценки на проверенных парах не улучшатся.
Перезапустите скорер после исправления проблем с данными; методология остаётся сопоставимой.
Исходные материалы
Имя папки кейса:
20260328 (префикс пути в репозитории: test-transcripts/20260328/).- Исходное видео (источник аудио): добавьте канонический URL того же видео, чьи субтитры использовались как эталон (например, ссылка на просмотр YouTube). Обрабатываемое для ASR аудио должно соответствовать этой загрузке.
- Эталонная расшифровка (VTT):
test-transcripts/20260328/ref.vtt— субтитры исходного видео, сохранённые как WebVTT для подсчёта. - Расшифровка модели (VTT):
test-transcripts/20260328/model.vtt— вывод Whisper large-v3-turbo для этого аудио. - Метаданные прогона:
test-transcripts/20260328/other.yaml - Предвычисленные метрики:
test-transcripts/20260328/result.json
Оценка получена скриптом
scripts/evaluate-vtt-metrics.js в этом репозитории. Разместите указанные файлы в test-transcripts/20260328/, чтобы воспроизвести приведённые числа.