🎉 Мы работаем! Все услуги бесплатны в течение нашего пробного периода — планы ценообразования скоро появятся.

Я протестировал распознавание английского интервью с помощью ИИ — результаты на 26 февраля 2026 года (Whisper BASE, ~11 минут аудио)

Я протестировал распознавание английского интервью с помощью ИИ — результаты на 26 февраля 2026 года (Whisper BASE, ~11 минут аудио)

2026-02-26Test
Eric King

Eric King

Author


1. Почему этот бенчмарк интервью важен

В реальных интервью точность расшифровки — не приятное дополнение, а базовое требование. От неё зависит, можно ли безопасно цитировать гостей, находить ключевые темы и строить последующий анализ, не искажая сказанное. Потерянное определение, неверно услышенная цифра или искажённое имя могут изменить смысл ответа.
В этом бенчмарке я взял фрагмент английского «Bill interview», пропустил его через конвейер транскрибирования на базе Whisper и оценил по стандартным метрикам ASR. Цель не в маркетинге, а в том, чтобы получить конкретный и воспроизводимый срез поведения системы на реальном, достаточно длинном интервью.
Исходное аудио интервью взято из ролика на YouTube, который можно посмотреть для контекста:
Исходное интервью на YouTube.

Source Materials

Все входные данные для этого бенчмарка хранятся в репозитории или в статических ресурсах и могут быть просмотрены напрямую:
Эти файлы — единственный источник всех чисел и выводов в статье.

Screenshots from this run

Панель SayToWords — сводка по метрикам
Панель SayToWords — просмотр транскрипта

2. Настройки эксперимента (Testing Setup)

В этом запуске использовались следующие параметры (все значения взяты из заранее посчитанных метаданных и файла result.json):
  • Дата запуска: 26‑02‑2026 (по временным меткам обработки)
  • Сценарий: английское интервью (test-transcripts/bill-interview)
  • Язык: английский
  • Длительность аудио:
    • audioDurationSeconds = 653.2934375
    • 10,89 минуты материала
  • Время обработки:
    • sttProcessingTimeSeconds = 85.476
    • 1,42 минуты от начала до конца
  • Модель / режим:
    • whisper-model: BASE
    • saytowords-mode: base
Условия записи, тип микрофона и плотность речи в метаданных не указаны, поэтому я не пытаюсь их угадывать или комментировать. Все выравнивания и расчёт метрик были выполнены до написания отчёта; ниже приведены значения, напрямую прочитанные из test-transcripts/bill-interview/result.json.

3. Методика оценки (Evaluation Methodology)

Референсный человеческий транскрипт (ref.vtt) и выход модели (model.vtt) хранятся в формате WebVTT. Конвейер оценки сначала извлекает из этих файлов чистый текст, затем выравнивает референс и гипотезу, после чего считает показатели ошибок.
Word Error Rate (WER)
После токенизации до последовательностей слов считаются:
  • (S): замены (substitutions)
  • (D): удаления (deletions)
  • (I): вставки (insertions)
  • (N): общее число слов в референсе
Словарная ошибка определяется как:
[ \text{WER} = \frac{S + D + I}{N} ]
Отсюда словарная точность (Accuracy):
[ \text{Accuracy} = 1 - \text{WER} ]
Character Error Rate (CER)
На уровне символов пробелы удаляются, после чего считается расстояние Левенштейна:
  • Редакционное расстояние по символам: суммарные вставки, удаления и замены
  • Общее число символов: количество символов в референсе (без пробелов)
[ \text{CER} = \frac{\text{Character edit distance}}{\text{Total characters}} ]
Real‑Time Factor (RTF)
Пропускная способность измеряется через Real‑Time Factor:
[ \text{RTF} = \frac{\text{Processing Time}}{\text{Audio Duration}} ]
Здесь время обработки — разность между processtime-at и completed-at в other.yaml, а длительность аудио берётся из audio-duration в том же файле.
Замечания по реализации
  • Все метрики рассчитываются на основе выравнивания между референсом и гипотезой.
  • Редакционные расстояния (по словам и по символам) считаютcя с помощью высокопроизводительной реализации Левенштейна.
  • Движок выравнивания работает на оптимизированном C++‑backend’е.
  • Временная сложность — порядка O(nm) при длинах последовательностей (n) и (m).
  • Все значения в result.json детерминированы и воспроизводимы: одинаковые входные данные дают одинаковый результат.

4. Обзор модели (Model Overview)

В данном бенчмарке оценивалась одна конфигурация модели:
  • Whisper BASE (saytowords-mode: base)
    Универсальная модель распознавания речи со средней ёмкостью, ориентированная на многоакцентный английский и продолжительное аудио. В этом тесте она используется «как есть» (без дообучения и без ручной правки), чтобы посмотреть на её поведение в реальном интервью.
В будущем к сравнению можно добавить более маленькие или большие варианты Whisper, а также системы других семейств, но в этой статье фокус только на этой одной baseline.

5. Результаты (по данным result.json)

Ниже приведены значения, напрямую взятые из test-transcripts/bill-interview/result.json:
  • Длительность аудио (с): 653.2934375
  • Время обработки (с): 85.476
  • Слов в референсе (N): 1846
  • Замены (S): 67
  • Удаления (D): 178
  • Вставки (I): 23
  • WER: 0.14517876489707476
  • Accuracy: 0.8548212351029252
  • Символов в референсе: 7335
  • Редакционное расстояние по символам: 825
  • CER: 0.11247443762781185
  • RTF: 0.13083860191079907
Если переписать в более удобной форме:
  • WER ≈ 14,52 %
  • Accuracy ≈ 85,48 %
  • CER ≈ 11,25 %
  • RTF ≈ 0,13, то есть примерно в 7,6 раза быстрее реального времени.

6. Анализ профиля ошибок (Error Pattern Analysis)

Отдельной разметки по временным сегментам и визуализаций нет, поэтому анализ строится только на агрегированных счётчиках.
  • Доминирующий тип ошибок: удаления (deletions)
    • Удаления: D = 178
    • Замены: S = 67
    • Вставки: I = 23
      Удаления составляют основную долю словарных ошибок. Это говорит о том, что модель чаще пропускает слова, чем придумывает лишнее. В интервью это обычно проявляется как потерянные служебные слова, обрезанные хвосты фраз при быстрой речи или выкинутые фрагменты при наложении нескольких говорящих.
  • Замены присутствуют, но вторичны
    При S = 67 замены дают примерно четверть всех ошибок. Обычно это лексические путаницы: похожие по звучанию слова, неверно распознанные имена или узкоспециализированная терминология.
  • Вставки встречаются редко
    Наблюдается лишь I = 23 вставки. Это соответствует модели, консервативной в отношении галлюцинаций: она чаще ошибается, недоговаривая, чем придумывая лишнее.
На уровне символов:
  • Редакционное расстояние по символам = 825 при 7335 символах, что даёт CER ≈ 11,25 %.
    По сравнению с WER около 14,5 % более низкая CER говорит о том, что многие «неправильные» слова всё ещё близки к референсу по набору символов — например, небольшие морфологические отличия, орфографические опечатки или по‑разному слитые/разделённые составные слова.
Без пометок ошибок, привязанных к меткам времени, мы не можем указать «проблемное место на конкретной минуте». Тем не менее профиль S/D/I уже даёт ясную картину: система склонна недо‑транскрибировать (under‑transcribe), а не придумывать новые фразы.

7. Ключевые выводы (Key Insights)

Опираясь только на числа, можно сделать несколько важных выводов:
  1. Хороший баланс между скоростью и точностью для интервью
    При RTF ≈ 0,13 система обрабатывает ~10,9 минут аудио примерно за 1,4 минуты, сохраняя WER ≈ 14,5 % и CER ≈ 11,3 %. Для пакетной обработки большого количества интервью это реалистичный рабочий режим.
  2. Профиль ошибок с явным доминированием deletions
    Удаления (178) заметно преобладают над заменами (67) и вставками (23). На практике это означает, что вы чаще будете терять небольшие куски содержимого, чем видеть полностью выдуманные моделью фрагменты.
  3. Более стабильное поведение на уровне символов, чем на уровне слов
    CER ниже WER, что говорит: многие ошибочные слова по набору символов достаточно близки к референсу. Для задач поиска и тематического кластеризования, которые терпимы к небольшим лексическим отклонениям, это плюс.
  4. Нетривиальный объём речи
    1846 референс‑слов и 7335 символов — это скорее реальное интервью, чем игрушечный пример. Метрики отражают поведение модели на протяжении нескольких минут спонтанной речи.

8. Лучшее решение для этого сценария (Best Model for This Scenario)

В данном бенчмарке тестировалась только конфигурация Whisper BASE (base mode), поэтому она одновременно:
  • самая сильная модель в «таблице», и
  • единственная точка отсчёта.
В этих рамках она показывает:
  • WER ≈ 14,5 %, Accuracy ≈ 85,5 % на ~11 минутах интервью,
  • RTF ≈ 0,13, то есть распознавание в 7–8 раз быстрее реального времени.
Для сценариев, где нужны быстрые и достаточно точные транскрипты интервью — для просмотра, поиска или приблизительного цитирования — эта конфигурация по цифрам выглядит приемлемой. Для областей, где важна практически стопроцентная точность, метрики ясно показывают необходимость ручной проверки или более сильной модели.

9. Нейтральный итог (Neutral Final Verdict)

На этом конкретном английском интервью от 26 февраля 2026 года Whisper BASE в режиме «base» демонстрирует:
  • профиль ошибок с доминированием deletions и малым числом вставок,
  • WER в середине диапазона 10+ % и CER в нижней части 10+ %, подтверждённые нетривиальным референс‑транскриптом,
  • Real‑Time Factor около 0,13, подходящий для крупномасштабной пакетной обработки.
Поведение численно устойчивое, воспроизводимое и достаточно быстрое для ежедневных бенчмарков. Для независимого оценщика вывод прост: это рабочая baseline‑конфигурация для транскрибирования интервью, но пока не полная замена человеческой проверке в особо чувствительных областях.

Референсные артефакты (Reference Artifacts)

Ниже приведены сворачиваемые блоки для референсного и модельного транскриптов. При необходимости в них можно вставить полное содержимое VTT‑файлов.
ref.vtt (референс‑транскрипт)
<!-- Здесь вставьте полное содержимое test-transcripts/bill-interview/ref.vtt -->
model.vtt (транскрипт модели)
<!-- Здесь вставьте полное содержимое test-transcripts/bill-interview/model.vtt -->

Попробовать бесплатно

Попробуйте наш сервис ИИ для работы с голосом, аудио и видео уже сейчас! Вы получите не только высокоточную транскрипцию речи в текст, многоязычный перевод и интеллектуальное разделение по дикторам, но и автоматическую генерацию субтитров к видео, умное редактирование аудио‑ и видеоконтента и синхронный аудио‑видео‑анализ. Решение охватывает все сценарии — от протоколирования встреч до создания коротких видео и подкастов. Начните бесплатный тест уже сегодня!

Конвертировать MP3 в текстКонвертировать голосовую запись в текстГолосовой Ввод ОнлайнГолос в Текст с Временными МеткамиГолос в Текст в Реальном ВремениГолос в Текст для Длинного АудиоГолос в Текст для ВидеоГолос в Текст для YouTubeГолос в Текст для ВидеомонтажаГолос в Текст для СубтитровГолос в Текст для ПодкастовГолос в Текст для ИнтервьюАудио интервью в текстГолос в Текст для ЗаписейГолос в Текст для ВстречГолос в Текст для ЛекцийГолос в Текст для ЗаметокГолос в Текст МногоязычныйГолос в Текст ТочныйГолос в Текст БыстроАльтернатива Premiere Pro Голос в ТекстАльтернатива DaVinci Голос в ТекстАльтернатива VEED Голос в ТекстАльтернатива InVideo Голос в ТекстАльтернатива Otter.ai Голос в ТекстАльтернатива Descript Голос в ТекстАльтернатива Trint Голос в ТекстАльтернатива Rev Голос в ТекстАльтернатива Sonix Голос в ТекстАльтернатива Happy Scribe Голос в ТекстАльтернатива Zoom Голос в ТекстАльтернатива Google Meet Голос в ТекстАльтернатива Microsoft Teams Голос в ТекстАльтернатива Fireflies.ai Голос в ТекстАльтернатива Fathom Голос в ТекстАльтернатива FlexClip Голос в ТекстАльтернатива Kapwing Голос в ТекстАльтернатива Canva Голос в ТекстГолос в Текст для Длинного АудиоИИ Голос в ТекстГолос в Текст БесплатноГолос в Текст Без РекламыГолос в Текст для Шумного АудиоГолос в Текст с ВременемГенерировать Субтитры из АудиоТранскрипция Подкастов ОнлайнТранскрибировать Звонки КлиентовГолос TikTok в ТекстАудио TikTok в ТекстYouTube Голос в ТекстYouTube Аудио в ТекстГолосовая Заметка в ТекстГолосовое Сообщение WhatsApp в ТекстГолосовое Сообщение Telegram в ТекстТранскрипция Звонка DiscordГолос Twitch в ТекстГолос Skype в ТекстГолос Messenger в ТекстГолосовое Сообщение LINE в ТекстТранскрибировать Влоги в ТекстКонвертировать Аудио Проповеди в ТекстПреобразовать Речь в ПисьмоПеревести Аудио в ТекстПреобразовать Аудио Заметки в ТекстГолосовой ВводГолосовой Ввод для ВстречГолосовой Ввод для YouTubeГовори и ПечатайПечать Без РукГолос в СловаРечь в СловаРечь в Текст ОнлайнOnline Transcription SoftwareРечь в Текст для ВстречБыстрая Речь в ТекстReal Time Speech to TextLive Transcription AppРечь в Текст для TikTokЗвук в Текст для TikTokРечь в Слова (говоря)Речь в ТекстTalk to Text FreeTalk to Text OnlineTalk to Text for YouTubeTalk to Text for SubtitlesTalk to Text for Content CreatorsTalk to Text for MeetingsАудио в ПечатьЗвук в ТекстИнструмент Голосового ПисанияИнструмент Речевого ПисанияГолосовая ДиктовкаИнструмент Юридической ТранскрипцииИнструмент Медицинской ДиктовкиЯпонская Аудио ТранскрипцияКорейская Транскрипция ВстречИнструмент Транскрипции ВстречАудио встречи в текстКонвертер Лекций в ТекстАудио лекции в текстТранскрипция Видео в ТекстГенератор Субтитров для TikTokТранскрипция Колл-ЦентраИнструмент Reels Аудио в ТекстТранскрибировать MP3 в ТекстТранскрибировать WAV файл в текстCapCut Голос в ТекстCapCut Голос в ТекстVoice to Text in EnglishАудио в текст на английскомVoice to Text in SpanishVoice to Text in FrenchАудио в текст на французскомVoice to Text in GermanАудио в текст на немецкомVoice to Text in JapaneseАудио в текст на японскомVoice to Text in KoreanАудио в текст на корейскомVoice to Text in PortugueseVoice to Text in ArabicVoice to Text in ChineseVoice to Text in HindiVoice to Text in RussianWeb Voice Typing ToolVoice Typing Website