Whisper Large v3 Turbo на англоязычном интервью — бенчмарк от 28 марта 2026 г. (WER, CER, RTF)

Эта заметка описывает один прогон с фиксированной конфигурацией на англоязычном аудио в стиле интервью (~8,5 минут). Скорер сообщает WER около 69%, причём удаления доминируют в бюджете ошибок (2192 удаления против 188 замен, 0 вставок). Такой профиль обычно означает, что гипотеза покрывает ссылку гораздо слабее, чем типичная «шумная, но полная» расшифровка; цифры следует читать как диагностические, вместе с ручной проверкой, что вывод модели и эталон описывают одну и ту же запись и сегментацию.

Видео и эталонный текст. Тестируемое аудио взято из исходного видео (ссылка ниже). Опорный WebVTT (ref.vtt) — это дорожка субтитров, поставляемая с этим видео, экспортированная или сохранённая как WebVTT с платформы, а не независимо подготовленная «золотая» расшифровка. Гипотеза (model.vtt) — это ASR Whisper large-v3-turbo на том же аудио. Метрики сравнивают субтитры платформы с этим прогоном ASR — практичный базис, но не то же самое, что оценка относительно вручную курируемых исследовательских транскриптов.

1. Зачем нужен этот бенчмарк

Интервью-аудио нагружает ASR перекрытием речи, неравномерным темпом, именами и числами — типичные условия редакционной и исследовательской работы. Публикация id модели, языка, длительности, меток времени и стандартных метрик делает прогон сопоставимым с повторными запусками или другими пайплайнами; цель — прозрачность, а не продуктовое обещание.

2. Настройка теста

Если не указано иное, значения ниже взяты из other.yaml и result.json для этого случая.

Поле	Значение
Дата (окно обработки)	2026-03-28 (см. `processtime-at` / `completed-at` в `other.yaml`)
Сценарий	Контент в стиле англоязычного интервью (тег языка: English)
Модель Whisper	large-v3-turbo (`whisper-model` в `other.yaml`)
Длительность аудио (YAML)	08:25 (метка 8 мин 25 с по настенным часам)
Длительность аудио (скорер)	506.88 с (из диапазона cue опорного VTT в `result.json`)
Интервал обработки по настенным часам	`processtime-at`: 2026-03-28 09:56:40.204 → `completed-at`: 2026-03-28 09:57:57.000
Производное время STT	≈ 76.8 с (разница двух меток выше; не хранится в `result.json`, так как этот прогон использовал явный режим VTT без YAML, прикреплённого к выводу скорера)
Производный RTF	≈ 0.151 (время обработки ÷ 506.88 с длительности аудио)

Примечание: в result.json для этого явного двухфайлового прогона указано "yamlMeta": null; RTF там null. Время обработки и RTF в статье пересчитаны из other.yaml для согласованности с разделом методологии.

3. Методология оценки

Эталон и гипотеза — файлы WebVTT. Из cue извлекается простой текст (временные метки и индексы удаляются), затем выполняется нормализация (регистр, пунктуация и простая типографика) перед подсчётом.

Выравнивание на уровне слов

Эталон и гипотеза выравниваются как последовательности токенов. Стандартная динамическая программа в духе Левенштейна находит путь минимальной стоимости между двумя последовательностями слов; обратный проход даёт числа замен (S), удалений (D) и вставок (I) относительно длины эталона N.

WER и точность

Пусть (S), (D) и (I) — числа замен, удалений и вставок, а (N) — число слов эталона.

[ \mathrm{WER} = \frac{S + D + I}{N}, \qquad \mathrm{Accuracy} = 1 - \mathrm{WER}. ]

CER

Пробельные символы удаляются из нормализованных строк. Расстояние редактирования на уровне символов — это расстояние Левенштейна на уровне символов; число символов эталона — длина эталонной строки без пробелов.

[ \mathrm{CER} = \frac{\text{Character edit distance}}{\text{Reference character count}}. ]

RTF

[ \mathrm{RTF} = \frac{\text{Processing time (seconds)}}{\text{Audio duration (seconds)}}. ]

RTF ниже 1 означает, что декодирование было быстрее реального времени на этом железе/в этом прогоне.

4. Обзор модели

Whisper large-v3-turbo относится к семейству «large» и обменивает часть вычислений на пропускную способность по сравнению с полными large-чекпоинтами (точное поведение зависит от реализации и железа). Это универсальный многоязычный ASR для черновиков и поисковой индексации, где не предполагается идеальная точность. Этот тест — одна конфигурация из other.yaml; без перебора температуры, чанкинга или VAD.

5. Результаты (из `result.json`)

Точные значения из предвычисленного объекта метрик:

Число слов эталона (N): 3442
Замены (S): 188
Удаления (D): 2192
Вставки (I): 0
WER: 0.6914584543869843
Точность: 0.3085415456130157
Число символов эталона: 15790
Расстояние редактирования символов: 10494
CER: 0.664597846738442
Длительность аудио (секунды): 506.88
Время STT (в JSON): null (см. раздел 2 для длительности из YAML)
RTF (в JSON): null (производный RTF ≈ 0.151 по меткам YAML)
Время работы eval-скрипта: 3.11 с

Округлённо для чтения

WER ≈ 69.1%; точность ≈ 30.9%
CER ≈ 66.5%
~10.5k правок символов на ~15.8k символов эталона
RTF ≈ 0.15× (быстрее реального времени на этом фрагменте, с временем из YAML)

6. Анализ структуры ошибок

При I = 0 гипотеза не добавляет лишних слов относительно этого выравнивания; почти вся масса ошибок на уровне слов — удаления и замены, причём уделения на порядок больше замен (2192 против 188).

Практическая интерпретация:

Профили с преобладанием удалений часто указывают на пропущенные фрагменты в гипотезе (обработка тишины, ранняя остановка, другая длина клипа или эталон длиннее фактически транскрибированного аудио).
Ноль вставок редко встречается в «грязном» реальном ASR; вместе с экстремальным WER это сигнал проверить сопоставление данных (тот же файл, язык, редакция эталона), прежде чем списывать оценку только на «качество модели».

CER ~66% согласуется с длинными участками текста, которые не совпадают между эталоном и гипотезой, а не только с редкими перестановками слов.

7. Ключевые выводы

Скорость: производный RTF ≈ 0.15 говорит о том, что стек завершил работу за долю реального времени на этом фрагменте — полезно там, где важна задержка, независимо от сырого WER.
Точность: WER ~69% недостаточен для публикуемых цитат или юридического уровня расшифровок без серьёзной человеческой вычитки.
Форма ошибок: доминируют удаления; сначала разбирайтесь с покрытием и выравниванием сегментов, затем подбирайте гиперпараметры декодирования.
Ограничение одной выборки: одно интервью и одна конфигурация модели не задают ожидаемую производственную точность по акцентам, кодекам или шуму.
Воспроизводимость: хранение всех четырёх артефактов вместе сохраняет замороженный снимок.

8. Лучшая модель для этого сценария

Только для этого клипа и этого эталона Whisper large-v3-turbo — задокументированная базовая линия: метки времени описывают пропускную способность; WER/CER — расхождение с вашим эталоном. Не утверждается, что это лучшая модель для всех англоязычных интервью.

9. Нейтральный итог

Для черновых заметок, внутреннего поиска или грубой индексации, где ошибки приемлемы и важна скорость, низкий RTF и сохранённая расшифровка могут оставаться пригодными при явных оговорках.

Для цитирования участников, процессов с требованиями соответствия или архивной публикации ~31% словесной точности этого прогона и профиль с преобладанием удалений означают, что нужно закладывать человеческую вычитку или другой захват/выравнивание эталона, пока оценки на проверенных парах не улучшатся.

Перезапустите скорер после исправления проблем с данными; методология остаётся сопоставимой.

Исходные материалы

Имя папки кейса: 20260328 (префикс пути в репозитории: test-transcripts/20260328/).

Исходное видео (источник аудио): добавьте канонический URL того же видео, чьи субтитры использовались как эталон (например, ссылка на просмотр YouTube). Обрабатываемое для ASR аудио должно соответствовать этой загрузке.
Эталонная расшифровка (VTT): test-transcripts/20260328/ref.vtt — субтитры исходного видео, сохранённые как WebVTT для подсчёта.
Расшифровка модели (VTT): test-transcripts/20260328/model.vtt — вывод Whisper large-v3-turbo для этого аудио.
Метаданные прогона: test-transcripts/20260328/other.yaml
Предвычисленные метрики: test-transcripts/20260328/result.json

Оценка получена скриптом scripts/evaluate-vtt-metrics.js в этом репозитории. Разместите указанные файлы в test-transcripts/20260328/, чтобы воспроизвести приведённые числа.

Whisper Large v3 Turbo на англоязычном интервью — бенчмарк от 28 марта 2026 г. (WER, CER, RTF)

1. Зачем нужен этот бенчмарк

2. Настройка теста

3. Методология оценки

4. Обзор модели

5. Результаты (из `result.json`)

6. Анализ структуры ошибок

7. Ключевые выводы

8. Лучшая модель для этого сценария

9. Нейтральный итог

Исходные материалы

Похожие публикации

Whisper Medium на английском YouTube-аудио — бенчмарк 2026-03-31 (WER, CER, RTF)

Whisper Medium на английском YouTube-аудио — бенчмарк 2026-03-30 (WER, CER, RTF)

Whisper Large v3 Turbo на англоязычном аудио с YouTube — бенчмарк от 29 марта 2026 г. (WER, CER, RTF)

Попробовать бесплатно

Whisper Large v3 Turbo на англоязычном интервью — бенчмарк от 28 марта 2026 г. (WER, CER, RTF)

1. Зачем нужен этот бенчмарк

2. Настройка теста

3. Методология оценки

4. Обзор модели

5. Результаты (из result.json)

6. Анализ структуры ошибок

7. Ключевые выводы

8. Лучшая модель для этого сценария

9. Нейтральный итог

Исходные материалы

Похожие публикации

Whisper Medium на английском YouTube-аудио — бенчмарк 2026-03-31 (WER, CER, RTF)

Whisper Medium на английском YouTube-аудио — бенчмарк 2026-03-30 (WER, CER, RTF)

Whisper Large v3 Turbo на англоязычном аудио с YouTube — бенчмарк от 29 марта 2026 г. (WER, CER, RTF)

Попробовать бесплатно

5. Результаты (из `result.json`)