Whisper Large v3 Turbo на англоязычном аудио с YouTube — бенчмарк от 29 марта 2026 г. (WER, CER, RTF)

Эта заметка фиксирует один прогон в фиксированной конфигурации на англоязычном аудио длительностью примерно 18 минут, взятом с загрузки YouTube. Скорер сообщает WER ≈ 67,6% с доминированием удалений (6 449 против 60 замен, 0 вставок). Такой профиль указывает на плохое совпадение гипотезы с эталоном по покрытию — часто, когда эталон — дорожка субтитров платформы, а вывод ASR отражает другую сегментацию или длину — поэтому цифры следует читать как диагностические, а не как отполированный «показатель точности» сами по себе.

Видео и эталонный текст. Эталонный WebVTT (ref.vtt) — это текст субтитров, поставляемый с исходным видео (экспортированный как WebVTT). Гипотеза (model.vtt) — это Whisper large-v3-turbo на том же исходном аудио. Метрики сравнивают эти субтитры с этим прогоном ASR — практический базис для вопроса «насколько наш пайплайн близок к тому, что YouTube отдаёт зрителям как субтитры», а не утверждение о проверенной людьми истинной разметке.

1. Зачем нужен этот бенчмарк

Речь в духе YouTube повсюду в реальных сценариях: нестабильное качество микрофона, музыкальные подложки, склейки и длинные монологи или диалоги. Оценка ASR с реальными субтитрами платформы как эталоном отвечает на конкретный вопрос: если мы прогоняем наш собственный стек на Whisper по тому же аудио, насколько текст расходится с тем, что зрители уже видят как субтитры? Это полезно для QA субтитров, переиспользования контента и поисковой индексации — областей, где «достаточно хорошо» зависит от продукта, но числа должны быть воспроизводимыми.

2. Настройка теста

Значения ниже взяты из other.yaml и result.json для этого случая (режим каталога, чтобы YAML-метаданные прикреплялись к выводу скорера).

Field	Value
Source	YouTube video (audio aligned to that upload)
Date (processing window)	2026-03-29 (`processtime-at` → `completed-at` in `other.yaml`)
Language	English
Whisper model	large-v3-turbo
Audio duration (YAML label)	17:39
Audio duration (scorer, from VTT)	1059.88 s (≈ 17.7 minutes)
STT processing time	175 s (`sttProcessingTimeSeconds` in `result.json`, from YAML timestamps)
RTF	0.165 (from `result.json`)

Интервал по настенным часам в YAML: 2026-03-29 16:04:37 → 2026-03-29 16:07:32 (согласуется с 175 с времени обработки).

3. Методика оценки

Эталон и гипотеза — файлы WebVTT. Текст реплик извлекается, затем нормализуется (регистр, пунктуация, лёгкая очистка) перед подсчётом.

Выравнивание на уровне слов

Последовательности токенов выравниваются динамическим программированием в духе Левенштейна; обратный проход даёт замены (S), удаления (D) и вставки (I) относительно длины эталона N.

[ \mathrm{WER} = \frac{S + D + I}{N}, \qquad \mathrm{Accuracy} = 1 - \mathrm{WER}. ]

Character Error Rate (CER)

Пробелы удаляются; редакционное расстояние по символам — расстояние Левенштейна на уровне символов.

[ \mathrm{CER} = \frac{\text{Character edit distance}}{\text{Reference character count (no spaces)}}. ]

Real-Time Factor (RTF)

[ \mathrm{RTF} = \frac{\text{STT processing time}}{\text{Audio duration}}. ]

RTF ниже 1 означает декодирование быстрее реального времени в этом прогоне.

4. Обзор модели

Whisper large-v3-turbo ориентирован на высокое качество при улучшенной пропускной способности по сравнению с более тяжёлыми вариантами «large» (поведение зависит от реализации и железа). Это универсальный многоязычный ASR для черновых транскриптов, поиска и черновых субтитров, где дословная идеальность не предполагается. В этом бенчмарке используется одна конфигурация декодирования из other.yaml; нет перебора опций декодирования, VAD или постобработки.

5. Результаты (из `result.json`)

Точные метрики:

Число слов эталона (N): 9627
Замены (S): 60
Удаления (D): 6449
Вставки (I): 0
WER: 0.6761192479484782
Точность (Accuracy): 0.3238807520515218
Число символов эталона: 38334
Редакционное расстояние по символам: 25696
CER: 0.6703187770647467
Длительность аудио (секунды): 1059.8809999999999
Время обработки STT (секунды): 175
RTF: 0.16511287587946197
Время выполнения скрипта оценки (секунды): 25.612

Округлённо для чтения

WER ≈ 67,6%; точность ≈ 32,4%
CER ≈ 67,0%
~25,7k правок символов на ~38,3k символов эталона
RTF ≈ 0,165× (примерно в 6× быстрее реального времени)

6. Анализ профиля ошибок

Вставок ноль, а удалений на порядок больше, чем замен (6449 против 60). Это не обычный профиль «шумного ASR с лишними словами-паразитами»; он указывает на большие фрагменты эталонного текста, не сопоставленные с гипотезой при таком выравнивании — согласуется с несовпадением длины, другой сегментацией или эталоном, охватывающим больше контента, чем услышал ASR (например, файл субтитров против сегмента аудио). CER ≈ 67% подчёркивает, что разрыв широкий, а не пара обменов словами.

Для продуктовых команд: не интерпретируйте это как «Whisper неправильно распознал 68% слов» в бытовом смысле, пока не подтверждены то же аудиоокно, тот же язык и сопоставимая нормализация текста между экспортом субтитров и выводом модели.

7. Ключевые выводы

Скорость: RTF ≈ 0,17 привлекателен для пакетной обработки длинных клипов.
Точность: ~68% WER не готово к публикации без ревью, если нужны точные цитаты.
Форма ошибок: преобладают удаления, вставок нет — проверьте сопоставление и покрытие до тонкой настройки модели.
Реалистичность сценария: ~18 минут непрерывного английского из реального источника YouTube репрезентативнее игрушечных клипов, но это по-прежнему одно видео и одна настройка модели.
Выбор эталона: субтитры платформы привязывают тест к видимой зрителю базовой линии, которая может отличаться от повторной расшифровки человеком.

8. Лучшая модель для этого сценария

В узком смысле «large-v3-turbo на этом клипе с субтитрами YouTube как эталон» прогон — это зафиксированная базовая линия: заданы пропускная способность (RTF) и количественное расхождение (WER/CER) для последующих сравнений. Это не утверждение, что это лучшая модель для всего англоязычного контента на YouTube.

9. Нейтральный итог

Для внутренних черновиков, тематических тегов или грубого поиска низкий RTF может сделать стек пригодным, если стейкхолдеры принимают уровни ошибок и проверяют критические фрагменты.

Для дословного цитирования, комплаенса или субтитров, критичных для доступности, ~32% точности на уровне слов и ошибки с доминированием удалений означают, что человеческая проверка или исправления выравнивания остаются обязательными. Перезапускайте скорер после любых изменений входов; методика остаётся сопоставимой.

Исходные материалы

Имя папки кейса {case-name} = 20260329 (зеркало под test-transcripts/ в репозитории при публикации артефактов).

Исходное видео (источник аудио): https://www.youtube.com/watch?v=E73XCmLAFe8 — эталонные субтитры — это субтитры, поставляемые с этим видео (экспортированные как ref.vtt).
Эталонная расшифровка (VTT): test-transcripts/{case-name}/ref.vtt
Расшифровка модели (VTT): test-transcripts/{case-name}/model.vtt
Метаданные прогона: test-transcripts/{case-name}/other.yaml
Предвычисленные метрики оценки: test-transcripts/{case-name}/result.json

Подсчёт использует scripts/evaluate-vtt-metrics.js в этом репозитории. Для длинных транскриптов при необходимости запускайте Node с увеличенным лимитом кучи (например NODE_OPTIONS=--max-old-space-size=8192).

Whisper Large v3 Turbo на англоязычном аудио с YouTube — бенчмарк от 29 марта 2026 г. (WER, CER, RTF)

1. Зачем нужен этот бенчмарк

2. Настройка теста

3. Методика оценки

4. Обзор модели

5. Результаты (из `result.json`)

6. Анализ профиля ошибок

7. Ключевые выводы

8. Лучшая модель для этого сценария

9. Нейтральный итог

Исходные материалы

Похожие публикации

Whisper Medium на английском YouTube-аудио — бенчмарк 2026-03-31 (WER, CER, RTF)

Whisper Medium на английском YouTube-аудио — бенчмарк 2026-03-30 (WER, CER, RTF)

Whisper Large v3 Turbo на англоязычном интервью — бенчмарк от 28 марта 2026 г. (WER, CER, RTF)

Попробовать бесплатно

Whisper Large v3 Turbo на англоязычном аудио с YouTube — бенчмарк от 29 марта 2026 г. (WER, CER, RTF)

1. Зачем нужен этот бенчмарк

2. Настройка теста

3. Методика оценки

4. Обзор модели

5. Результаты (из result.json)

6. Анализ профиля ошибок

7. Ключевые выводы

8. Лучшая модель для этого сценария

9. Нейтральный итог

Исходные материалы

Похожие публикации

Whisper Medium на английском YouTube-аудио — бенчмарк 2026-03-31 (WER, CER, RTF)

Whisper Medium на английском YouTube-аудио — бенчмарк 2026-03-30 (WER, CER, RTF)

Whisper Large v3 Turbo на англоязычном интервью — бенчмарк от 28 марта 2026 г. (WER, CER, RTF)

Попробовать бесплатно

5. Результаты (из `result.json`)