Whisper Large v3 Turbo на англоязычном аудио с YouTube — бенчмарк от 29 марта 2026 г. (WER, CER, RTF)

Whisper Large v3 Turbo на англоязычном аудио с YouTube — бенчмарк от 29 марта 2026 г. (WER, CER, RTF)

2026-03-29Test
Eric King

Eric King

Author


Эта заметка фиксирует один прогон в фиксированной конфигурации на англоязычном аудио длительностью примерно 18 минут, взятом с загрузки YouTube. Скорер сообщает WER ≈ 67,6% с доминированием удалений (6 449 против 60 замен, 0 вставок). Такой профиль указывает на плохое совпадение гипотезы с эталоном по покрытию — часто, когда эталон — дорожка субтитров платформы, а вывод ASR отражает другую сегментацию или длину — поэтому цифры следует читать как диагностические, а не как отполированный «показатель точности» сами по себе.
Видео и эталонный текст. Эталонный WebVTT (ref.vtt) — это текст субтитров, поставляемый с исходным видео (экспортированный как WebVTT). Гипотеза (model.vtt) — это Whisper large-v3-turbo на том же исходном аудио. Метрики сравнивают эти субтитры с этим прогоном ASR — практический базис для вопроса «насколько наш пайплайн близок к тому, что YouTube отдаёт зрителям как субтитры», а не утверждение о проверенной людьми истинной разметке.

1. Зачем нужен этот бенчмарк

Речь в духе YouTube повсюду в реальных сценариях: нестабильное качество микрофона, музыкальные подложки, склейки и длинные монологи или диалоги. Оценка ASR с реальными субтитрами платформы как эталоном отвечает на конкретный вопрос: если мы прогоняем наш собственный стек на Whisper по тому же аудио, насколько текст расходится с тем, что зрители уже видят как субтитры? Это полезно для QA субтитров, переиспользования контента и поисковой индексации — областей, где «достаточно хорошо» зависит от продукта, но числа должны быть воспроизводимыми.

2. Настройка теста

Значения ниже взяты из other.yaml и result.json для этого случая (режим каталога, чтобы YAML-метаданные прикреплялись к выводу скорера).
FieldValue
SourceYouTube video (audio aligned to that upload)
Date (processing window)2026-03-29 (processtime-atcompleted-at in other.yaml)
LanguageEnglish
Whisper modellarge-v3-turbo
Audio duration (YAML label)17:39
Audio duration (scorer, from VTT)1059.88 s (≈ 17.7 minutes)
STT processing time175 s (sttProcessingTimeSeconds in result.json, from YAML timestamps)
RTF0.165 (from result.json)
Интервал по настенным часам в YAML: 2026-03-29 16:04:372026-03-29 16:07:32 (согласуется с 175 с времени обработки).

3. Методика оценки

Эталон и гипотеза — файлы WebVTT. Текст реплик извлекается, затем нормализуется (регистр, пунктуация, лёгкая очистка) перед подсчётом.
Выравнивание на уровне слов
Последовательности токенов выравниваются динамическим программированием в духе Левенштейна; обратный проход даёт замены (S), удаления (D) и вставки (I) относительно длины эталона N.
[ \mathrm{WER} = \frac{S + D + I}{N}, \qquad \mathrm{Accuracy} = 1 - \mathrm{WER}. ]
Character Error Rate (CER)
Пробелы удаляются; редакционное расстояние по символам — расстояние Левенштейна на уровне символов.
[ \mathrm{CER} = \frac{\text{Character edit distance}}{\text{Reference character count (no spaces)}}. ]
Real-Time Factor (RTF)
[ \mathrm{RTF} = \frac{\text{STT processing time}}{\text{Audio duration}}. ]
RTF ниже 1 означает декодирование быстрее реального времени в этом прогоне.

4. Обзор модели

Whisper large-v3-turbo ориентирован на высокое качество при улучшенной пропускной способности по сравнению с более тяжёлыми вариантами «large» (поведение зависит от реализации и железа). Это универсальный многоязычный ASR для черновых транскриптов, поиска и черновых субтитров, где дословная идеальность не предполагается. В этом бенчмарке используется одна конфигурация декодирования из other.yaml; нет перебора опций декодирования, VAD или постобработки.

5. Результаты (из result.json)

Точные метрики:
  • Число слов эталона (N): 9627
  • Замены (S): 60
  • Удаления (D): 6449
  • Вставки (I): 0
  • WER: 0.6761192479484782
  • Точность (Accuracy): 0.3238807520515218
  • Число символов эталона: 38334
  • Редакционное расстояние по символам: 25696
  • CER: 0.6703187770647467
  • Длительность аудио (секунды): 1059.8809999999999
  • Время обработки STT (секунды): 175
  • RTF: 0.16511287587946197
  • Время выполнения скрипта оценки (секунды): 25.612
Округлённо для чтения
  • WER ≈ 67,6%; точность ≈ 32,4%
  • CER ≈ 67,0%
  • ~25,7k правок символов на ~38,3k символов эталона
  • RTF ≈ 0,165× (примерно в быстрее реального времени)

6. Анализ профиля ошибок

Вставок ноль, а удалений на порядок больше, чем замен (6449 против 60). Это не обычный профиль «шумного ASR с лишними словами-паразитами»; он указывает на большие фрагменты эталонного текста, не сопоставленные с гипотезой при таком выравнивании — согласуется с несовпадением длины, другой сегментацией или эталоном, охватывающим больше контента, чем услышал ASR (например, файл субтитров против сегмента аудио). CER ≈ 67% подчёркивает, что разрыв широкий, а не пара обменов словами.
Для продуктовых команд: не интерпретируйте это как «Whisper неправильно распознал 68% слов» в бытовом смысле, пока не подтверждены то же аудиоокно, тот же язык и сопоставимая нормализация текста между экспортом субтитров и выводом модели.

7. Ключевые выводы

  • Скорость: RTF ≈ 0,17 привлекателен для пакетной обработки длинных клипов.
  • Точность: ~68% WER не готово к публикации без ревью, если нужны точные цитаты.
  • Форма ошибок: преобладают удаления, вставок нет — проверьте сопоставление и покрытие до тонкой настройки модели.
  • Реалистичность сценария: ~18 минут непрерывного английского из реального источника YouTube репрезентативнее игрушечных клипов, но это по-прежнему одно видео и одна настройка модели.
  • Выбор эталона: субтитры платформы привязывают тест к видимой зрителю базовой линии, которая может отличаться от повторной расшифровки человеком.

8. Лучшая модель для этого сценария

В узком смысле «large-v3-turbo на этом клипе с субтитрами YouTube как эталон» прогон — это зафиксированная базовая линия: заданы пропускная способность (RTF) и количественное расхождение (WER/CER) для последующих сравнений. Это не утверждение, что это лучшая модель для всего англоязычного контента на YouTube.

9. Нейтральный итог

Для внутренних черновиков, тематических тегов или грубого поиска низкий RTF может сделать стек пригодным, если стейкхолдеры принимают уровни ошибок и проверяют критические фрагменты.
Для дословного цитирования, комплаенса или субтитров, критичных для доступности, ~32% точности на уровне слов и ошибки с доминированием удалений означают, что человеческая проверка или исправления выравнивания остаются обязательными. Перезапускайте скорер после любых изменений входов; методика остаётся сопоставимой.

Исходные материалы

Имя папки кейса {case-name} = 20260329 (зеркало под test-transcripts/ в репозитории при публикации артефактов).
  • Исходное видео (источник аудио): https://www.youtube.com/watch?v=E73XCmLAFe8 — эталонные субтитры — это субтитры, поставляемые с этим видео (экспортированные как ref.vtt).
  • Эталонная расшифровка (VTT): test-transcripts/{case-name}/ref.vtt
  • Расшифровка модели (VTT): test-transcripts/{case-name}/model.vtt
  • Метаданные прогона: test-transcripts/{case-name}/other.yaml
  • Предвычисленные метрики оценки: test-transcripts/{case-name}/result.json
Подсчёт использует scripts/evaluate-vtt-metrics.js в этом репозитории. Для длинных транскриптов при необходимости запускайте Node с увеличенным лимитом кучи (например NODE_OPTIONS=--max-old-space-size=8192).

Попробовать бесплатно

Попробуйте наш сервис ИИ для работы с голосом, аудио и видео уже сейчас! Вы получите не только высокоточную транскрипцию речи в текст, многоязычный перевод и интеллектуальное разделение по дикторам, но и автоматическую генерацию субтитров к видео, умное редактирование аудио‑ и видеоконтента и синхронный аудио‑видео‑анализ. Решение охватывает все сценарии — от протоколирования встреч до создания коротких видео и подкастов. Начните бесплатный тест уже сегодня!

Звук в текст онлайнЗвук в текст бесплатноКонвертер звука в текстЗвук в текст MP3Звук в текст WAVЗвук в текст с метками времениЗвук в текст для встречSound to Text Multi LanguageЗвук в текст субтитрыКонвертировать WAV в текстГолос в ТекстГолос в Текст ОнлайнРечь в ТекстКонвертировать MP3 в текстКонвертировать голосовую запись в текстГолосовой Ввод ОнлайнГолос в Текст с Временными МеткамиГолос в Текст в Реальном ВремениГолос в Текст для Длинного АудиоГолос в Текст для ВидеоГолос в Текст для YouTubeГолос в Текст для ВидеомонтажаГолос в Текст для СубтитровГолос в Текст для ПодкастовГолос в Текст для ИнтервьюАудио интервью в текстГолос в Текст для ЗаписейГолос в Текст для ВстречГолос в Текст для ЛекцийГолос в Текст для ЗаметокГолос в Текст МногоязычныйГолос в Текст ТочныйГолос в Текст БыстроАльтернатива Premiere Pro Голос в ТекстАльтернатива DaVinci Голос в ТекстАльтернатива VEED Голос в ТекстАльтернатива InVideo Голос в ТекстАльтернатива Otter.ai Голос в ТекстАльтернатива Descript Голос в ТекстАльтернатива Trint Голос в ТекстАльтернатива Rev Голос в ТекстАльтернатива Sonix Голос в ТекстАльтернатива Happy Scribe Голос в ТекстАльтернатива Zoom Голос в ТекстАльтернатива Google Meet Голос в ТекстАльтернатива Microsoft Teams Голос в ТекстАльтернатива Fireflies.ai Голос в ТекстАльтернатива Fathom Голос в ТекстАльтернатива FlexClip Голос в ТекстАльтернатива Kapwing Голос в ТекстАльтернатива Canva Голос в ТекстГолос в Текст для Длинного АудиоИИ Голос в ТекстГолос в Текст БесплатноГолос в Текст Без РекламыГолос в Текст для Шумного АудиоГолос в Текст с ВременемГенерировать Субтитры из АудиоТранскрипция Подкастов ОнлайнТранскрибировать Звонки КлиентовГолос TikTok в ТекстАудио TikTok в ТекстYouTube Голос в ТекстYouTube Аудио в ТекстГолосовая Заметка в ТекстГолосовое Сообщение WhatsApp в ТекстГолосовое Сообщение Telegram в ТекстТранскрипция Звонка DiscordГолос Twitch в ТекстГолос Skype в ТекстГолос Messenger в ТекстГолосовое Сообщение LINE в ТекстТранскрибировать Влоги в ТекстКонвертировать Аудио Проповеди в ТекстПреобразовать Речь в ПисьмоПеревести Аудио в ТекстПреобразовать Аудио Заметки в ТекстГолосовой ВводГолосовой Ввод для ВстречГолосовой Ввод для YouTubeГовори и ПечатайПечать Без РукГолос в СловаРечь в СловаРечь в Текст ОнлайнOnline Transcription SoftwareРечь в Текст для ВстречБыстрая Речь в ТекстReal Time Speech to TextLive Transcription AppРечь в Текст для TikTokЗвук в Текст для TikTokРечь в Слова (говоря)Речь в ТекстTalk to Text FreeTalk to Text OnlineTalk to Text for YouTubeTalk to Text for SubtitlesTalk to Text for Content CreatorsTalk to Text for MeetingsАудио в ПечатьЗвук в ТекстИнструмент Голосового ПисанияИнструмент Речевого ПисанияГолосовая ДиктовкаИнструмент Юридической ТранскрипцииИнструмент Медицинской ДиктовкиЯпонская Аудио ТранскрипцияКорейская Транскрипция ВстречИнструмент Транскрипции ВстречАудио встречи в текстКонвертер Лекций в ТекстАудио лекции в текстТранскрипция Видео в ТекстГенератор Субтитров для TikTokТранскрипция Колл-ЦентраИнструмент Reels Аудио в ТекстТранскрибировать MP3 в ТекстТранскрибировать WAV файл в текстCapCut Голос в ТекстCapCut Голос в ТекстVoice to Text in EnglishАудио в текст на английскомVoice to Text in SpanishVoice to Text in FrenchАудио в текст на французскомVoice to Text in GermanАудио в текст на немецкомVoice to Text in JapaneseАудио в текст на японскомVoice to Text in KoreanАудио в текст на корейскомVoice to Text in PortugueseVoice to Text in ArabicVoice to Text in ChineseVoice to Text in HindiVoice to Text in RussianWeb Voice Typing ToolVoice Typing Website