Whisper Large v3 Turbo на англоязычном интервью — бенчмарк от 28 марта 2026 г. (WER, CER, RTF)

Whisper Large v3 Turbo на англоязычном интервью — бенчмарк от 28 марта 2026 г. (WER, CER, RTF)

2026-03-28Test
Eric King

Eric King

Author


Эта заметка описывает один прогон с фиксированной конфигурацией на англоязычном аудио в стиле интервью (~8,5 минут). Скорер сообщает WER около 69%, причём удаления доминируют в бюджете ошибок (2192 удаления против 188 замен, 0 вставок). Такой профиль обычно означает, что гипотеза покрывает ссылку гораздо слабее, чем типичная «шумная, но полная» расшифровка; цифры следует читать как диагностические, вместе с ручной проверкой, что вывод модели и эталон описывают одну и ту же запись и сегментацию.
Видео и эталонный текст. Тестируемое аудио взято из исходного видео (ссылка ниже). Опорный WebVTT (ref.vtt) — это дорожка субтитров, поставляемая с этим видео, экспортированная или сохранённая как WebVTT с платформы, а не независимо подготовленная «золотая» расшифровка. Гипотеза (model.vtt) — это ASR Whisper large-v3-turbo на том же аудио. Метрики сравнивают субтитры платформы с этим прогоном ASR — практичный базис, но не то же самое, что оценка относительно вручную курируемых исследовательских транскриптов.

1. Зачем нужен этот бенчмарк

Интервью-аудио нагружает ASR перекрытием речи, неравномерным темпом, именами и числами — типичные условия редакционной и исследовательской работы. Публикация id модели, языка, длительности, меток времени и стандартных метрик делает прогон сопоставимым с повторными запусками или другими пайплайнами; цель — прозрачность, а не продуктовое обещание.

2. Настройка теста

Если не указано иное, значения ниже взяты из other.yaml и result.json для этого случая.
ПолеЗначение
Дата (окно обработки)2026-03-28 (см. processtime-at / completed-at в other.yaml)
СценарийКонтент в стиле англоязычного интервью (тег языка: English)
Модель Whisperlarge-v3-turbo (whisper-model в other.yaml)
Длительность аудио (YAML)08:25 (метка 8 мин 25 с по настенным часам)
Длительность аудио (скорер)506.88 с (из диапазона cue опорного VTT в result.json)
Интервал обработки по настенным часамprocesstime-at: 2026-03-28 09:56:40.204completed-at: 2026-03-28 09:57:57.000
Производное время STT76.8 с (разница двух меток выше; не хранится в result.json, так как этот прогон использовал явный режим VTT без YAML, прикреплённого к выводу скорера)
Производный RTF0.151 (время обработки ÷ 506.88 с длительности аудио)
Примечание: в result.json для этого явного двухфайлового прогона указано "yamlMeta": null; RTF там null. Время обработки и RTF в статье пересчитаны из other.yaml для согласованности с разделом методологии.

3. Методология оценки

Эталон и гипотеза — файлы WebVTT. Из cue извлекается простой текст (временные метки и индексы удаляются), затем выполняется нормализация (регистр, пунктуация и простая типографика) перед подсчётом.
Выравнивание на уровне слов
Эталон и гипотеза выравниваются как последовательности токенов. Стандартная динамическая программа в духе Левенштейна находит путь минимальной стоимости между двумя последовательностями слов; обратный проход даёт числа замен (S), удалений (D) и вставок (I) относительно длины эталона N.
WER и точность
Пусть (S), (D) и (I) — числа замен, удалений и вставок, а (N) — число слов эталона.
[ \mathrm{WER} = \frac{S + D + I}{N}, \qquad \mathrm{Accuracy} = 1 - \mathrm{WER}. ]
CER
Пробельные символы удаляются из нормализованных строк. Расстояние редактирования на уровне символов — это расстояние Левенштейна на уровне символов; число символов эталона — длина эталонной строки без пробелов.
[ \mathrm{CER} = \frac{\text{Character edit distance}}{\text{Reference character count}}. ]
RTF
[ \mathrm{RTF} = \frac{\text{Processing time (seconds)}}{\text{Audio duration (seconds)}}. ]
RTF ниже 1 означает, что декодирование было быстрее реального времени на этом железе/в этом прогоне.

4. Обзор модели

Whisper large-v3-turbo относится к семейству «large» и обменивает часть вычислений на пропускную способность по сравнению с полными large-чекпоинтами (точное поведение зависит от реализации и железа). Это универсальный многоязычный ASR для черновиков и поисковой индексации, где не предполагается идеальная точность. Этот тест — одна конфигурация из other.yaml; без перебора температуры, чанкинга или VAD.

5. Результаты (из result.json)

Точные значения из предвычисленного объекта метрик:
  • Число слов эталона (N): 3442
  • Замены (S): 188
  • Удаления (D): 2192
  • Вставки (I): 0
  • WER: 0.6914584543869843
  • Точность: 0.3085415456130157
  • Число символов эталона: 15790
  • Расстояние редактирования символов: 10494
  • CER: 0.664597846738442
  • Длительность аудио (секунды): 506.88
  • Время STT (в JSON): null (см. раздел 2 для длительности из YAML)
  • RTF (в JSON): null (производный RTF ≈ 0.151 по меткам YAML)
  • Время работы eval-скрипта: 3.11 с
Округлённо для чтения
  • WER ≈ 69.1%; точность ≈ 30.9%
  • CER ≈ 66.5%
  • ~10.5k правок символов на ~15.8k символов эталона
  • RTF ≈ 0.15× (быстрее реального времени на этом фрагменте, с временем из YAML)

6. Анализ структуры ошибок

При I = 0 гипотеза не добавляет лишних слов относительно этого выравнивания; почти вся масса ошибок на уровне слов — удаления и замены, причём уделения на порядок больше замен (2192 против 188).
Практическая интерпретация:
  • Профили с преобладанием удалений часто указывают на пропущенные фрагменты в гипотезе (обработка тишины, ранняя остановка, другая длина клипа или эталон длиннее фактически транскрибированного аудио).
  • Ноль вставок редко встречается в «грязном» реальном ASR; вместе с экстремальным WER это сигнал проверить сопоставление данных (тот же файл, язык, редакция эталона), прежде чем списывать оценку только на «качество модели».
CER ~66% согласуется с длинными участками текста, которые не совпадают между эталоном и гипотезой, а не только с редкими перестановками слов.

7. Ключевые выводы

  • Скорость: производный RTF ≈ 0.15 говорит о том, что стек завершил работу за долю реального времени на этом фрагменте — полезно там, где важна задержка, независимо от сырого WER.
  • Точность: WER ~69% недостаточен для публикуемых цитат или юридического уровня расшифровок без серьёзной человеческой вычитки.
  • Форма ошибок: доминируют удаления; сначала разбирайтесь с покрытием и выравниванием сегментов, затем подбирайте гиперпараметры декодирования.
  • Ограничение одной выборки: одно интервью и одна конфигурация модели не задают ожидаемую производственную точность по акцентам, кодекам или шуму.
  • Воспроизводимость: хранение всех четырёх артефактов вместе сохраняет замороженный снимок.

8. Лучшая модель для этого сценария

Только для этого клипа и этого эталона Whisper large-v3-turboзадокументированная базовая линия: метки времени описывают пропускную способность; WER/CER — расхождение с вашим эталоном. Не утверждается, что это лучшая модель для всех англоязычных интервью.

9. Нейтральный итог

Для черновых заметок, внутреннего поиска или грубой индексации, где ошибки приемлемы и важна скорость, низкий RTF и сохранённая расшифровка могут оставаться пригодными при явных оговорках.
Для цитирования участников, процессов с требованиями соответствия или архивной публикации ~31% словесной точности этого прогона и профиль с преобладанием удалений означают, что нужно закладывать человеческую вычитку или другой захват/выравнивание эталона, пока оценки на проверенных парах не улучшатся.
Перезапустите скорер после исправления проблем с данными; методология остаётся сопоставимой.

Исходные материалы

Имя папки кейса: 20260328 (префикс пути в репозитории: test-transcripts/20260328/).
  • Исходное видео (источник аудио): добавьте канонический URL того же видео, чьи субтитры использовались как эталон (например, ссылка на просмотр YouTube). Обрабатываемое для ASR аудио должно соответствовать этой загрузке.
  • Эталонная расшифровка (VTT): test-transcripts/20260328/ref.vttсубтитры исходного видео, сохранённые как WebVTT для подсчёта.
  • Расшифровка модели (VTT): test-transcripts/20260328/model.vtt — вывод Whisper large-v3-turbo для этого аудио.
  • Метаданные прогона: test-transcripts/20260328/other.yaml
  • Предвычисленные метрики: test-transcripts/20260328/result.json
Оценка получена скриптом scripts/evaluate-vtt-metrics.js в этом репозитории. Разместите указанные файлы в test-transcripts/20260328/, чтобы воспроизвести приведённые числа.

Попробовать бесплатно

Попробуйте наш сервис ИИ для работы с голосом, аудио и видео уже сейчас! Вы получите не только высокоточную транскрипцию речи в текст, многоязычный перевод и интеллектуальное разделение по дикторам, но и автоматическую генерацию субтитров к видео, умное редактирование аудио‑ и видеоконтента и синхронный аудио‑видео‑анализ. Решение охватывает все сценарии — от протоколирования встреч до создания коротких видео и подкастов. Начните бесплатный тест уже сегодня!

Звук в текст онлайнЗвук в текст бесплатноКонвертер звука в текстЗвук в текст MP3Звук в текст WAVЗвук в текст с метками времениЗвук в текст для встречSound to Text Multi LanguageЗвук в текст субтитрыКонвертировать WAV в текстГолос в ТекстГолос в Текст ОнлайнРечь в ТекстКонвертировать MP3 в текстКонвертировать голосовую запись в текстГолосовой Ввод ОнлайнГолос в Текст с Временными МеткамиГолос в Текст в Реальном ВремениГолос в Текст для Длинного АудиоГолос в Текст для ВидеоГолос в Текст для YouTubeГолос в Текст для ВидеомонтажаГолос в Текст для СубтитровГолос в Текст для ПодкастовГолос в Текст для ИнтервьюАудио интервью в текстГолос в Текст для ЗаписейГолос в Текст для ВстречГолос в Текст для ЛекцийГолос в Текст для ЗаметокГолос в Текст МногоязычныйГолос в Текст ТочныйГолос в Текст БыстроАльтернатива Premiere Pro Голос в ТекстАльтернатива DaVinci Голос в ТекстАльтернатива VEED Голос в ТекстАльтернатива InVideo Голос в ТекстАльтернатива Otter.ai Голос в ТекстАльтернатива Descript Голос в ТекстАльтернатива Trint Голос в ТекстАльтернатива Rev Голос в ТекстАльтернатива Sonix Голос в ТекстАльтернатива Happy Scribe Голос в ТекстАльтернатива Zoom Голос в ТекстАльтернатива Google Meet Голос в ТекстАльтернатива Microsoft Teams Голос в ТекстАльтернатива Fireflies.ai Голос в ТекстАльтернатива Fathom Голос в ТекстАльтернатива FlexClip Голос в ТекстАльтернатива Kapwing Голос в ТекстАльтернатива Canva Голос в ТекстГолос в Текст для Длинного АудиоИИ Голос в ТекстГолос в Текст БесплатноГолос в Текст Без РекламыГолос в Текст для Шумного АудиоГолос в Текст с ВременемГенерировать Субтитры из АудиоТранскрипция Подкастов ОнлайнТранскрибировать Звонки КлиентовГолос TikTok в ТекстАудио TikTok в ТекстYouTube Голос в ТекстYouTube Аудио в ТекстГолосовая Заметка в ТекстГолосовое Сообщение WhatsApp в ТекстГолосовое Сообщение Telegram в ТекстТранскрипция Звонка DiscordГолос Twitch в ТекстГолос Skype в ТекстГолос Messenger в ТекстГолосовое Сообщение LINE в ТекстТранскрибировать Влоги в ТекстКонвертировать Аудио Проповеди в ТекстПреобразовать Речь в ПисьмоПеревести Аудио в ТекстПреобразовать Аудио Заметки в ТекстГолосовой ВводГолосовой Ввод для ВстречГолосовой Ввод для YouTubeГовори и ПечатайПечать Без РукГолос в СловаРечь в СловаРечь в Текст ОнлайнOnline Transcription SoftwareРечь в Текст для ВстречБыстрая Речь в ТекстReal Time Speech to TextLive Transcription AppРечь в Текст для TikTokЗвук в Текст для TikTokРечь в Слова (говоря)Речь в ТекстTalk to Text FreeTalk to Text OnlineTalk to Text for YouTubeTalk to Text for SubtitlesTalk to Text for Content CreatorsTalk to Text for MeetingsАудио в ПечатьЗвук в ТекстИнструмент Голосового ПисанияИнструмент Речевого ПисанияГолосовая ДиктовкаИнструмент Юридической ТранскрипцииИнструмент Медицинской ДиктовкиЯпонская Аудио ТранскрипцияКорейская Транскрипция ВстречИнструмент Транскрипции ВстречАудио встречи в текстКонвертер Лекций в ТекстАудио лекции в текстТранскрипция Видео в ТекстГенератор Субтитров для TikTokТранскрипция Колл-ЦентраИнструмент Reels Аудио в ТекстТранскрибировать MP3 в ТекстТранскрибировать WAV файл в текстCapCut Голос в ТекстCapCut Голос в ТекстVoice to Text in EnglishАудио в текст на английскомVoice to Text in SpanishVoice to Text in FrenchАудио в текст на французскомVoice to Text in GermanАудио в текст на немецкомVoice to Text in JapaneseАудио в текст на японскомVoice to Text in KoreanАудио в текст на корейскомVoice to Text in PortugueseVoice to Text in ArabicVoice to Text in ChineseVoice to Text in HindiVoice to Text in RussianWeb Voice Typing ToolVoice Typing Website