Бенчмарки Whisper V3: производительность, точность и анализ скорости

Бенчмарки Whisper V3: производительность, точность и анализ скорости

Eric King

Eric King

Author


OpenAI Whisper large-v3 — новейшее развитие линейки Whisper с повышенной точностью и производительностью по сравнению с предыдущими версиями. Понимание поведения large-v3 в разных сценариях важно для выбора подходящей модели.
В этом анализе бенчмарков рассматриваются метрики точности, скорость, требования к ресурсам и практические сравнения для Whisper large-v3.

Что такое Whisper Large-V3?

Whisper large-v3 — самая новая и точная версия модели Whisper от OpenAI, улучшающая large-v2. Архитектура та же (~1,5 млрд параметров), с:
  • улучшенными обучающими данными и методологией
  • лучшей многоязычной производительностью
  • повышенной устойчивостью к шуму и акцентам
  • уточнёнными весами для более высокой точности

Спецификации модели

SpecificationValue
Parameters~1.5 billion
Model Size~3 GB (FP16)
VRAM Required~10 GB (FP16)
Languages Supported99+ languages
Max Audio Length~30 seconds per chunk

Бенчмарки точности: сравнение WER

Общая доля ошибок по словам (WER)

WER (Word Error Rate) — стандартная метрика точности распознавания речи:
WER = (Substitutions + Deletions + Insertions) / Total Words
Чем ниже WER, тем выше точность

Бенчмарки на чистом аудио

ModelWER (Clean Audio)Improvement vs v2
large-v32.1%Baseline
large-v22.4%+14% worse
large-v12.6%+24% worse
medium3.5%+67% worse
small5.1%+143% worse
Вывод: large-v3 достигает 2,1% WER на чистом аудио, что на 12,5% лучше large-v2.

Бенчмарки на реальных записях

ModelWER (Real-World)WER (Noisy)WER (Phone Calls)
large-v33.8%5.2%6.1%
large-v24.3%5.9%6.8%
large-v14.6%6.3%7.2%
medium5.8%7.5%8.4%
Вывод: в реальных условиях large-v3 на 11–12% лучше large-v2.

Точность по сценариям

1. Транскрипция подкастов

ModelWERNotes
large-v32.5%Excellent for natural conversation
large-v22.9%Good, but v3 is better
medium3.8%Acceptable for most podcasts
Подходит для: длинного контента, естественной речи, нескольких говорящих

2. Транскрипция встреч

ModelWERNotes
large-v34.2%Handles overlapping speech well
large-v24.7%Good performance
medium6.1%May struggle with multiple speakers
Подходит для: деловых встреч, стендапов, звонков клиентам

3. Транскрипция телефонных разговоров

ModelWERNotes
large-v36.1%Best for low-quality audio
large-v26.8%Good, but v3 is better
medium8.4%May miss words in noisy calls
Подходит для: поддержки, продаж, записей для комплаенса

4. Транскрипция зашумлённого аудио

ModelWERNotes
large-v35.2%Most robust to noise
large-v25.9%Good noise handling
medium7.5%Struggles with heavy noise
Подходит для: уличных записей, фонового шума, сложных условий

5. Речь с акцентом

ModelWER (Accented)Improvement
large-v34.8%Baseline
large-v25.4%+12.5% worse
medium6.9%+44% worse
Вывод: large-v3 даёт заметное улучшение для акцентированной и неносительской речи.

Многоязычные бенчмарки

Производительность на английском

ModelWER (EN)Speed (RTF)
large-v32.1%0.15x
large-v22.4%0.15x
medium3.5%0.08x

Языки кроме английского

Languagelarge-v3 WERlarge-v2 WERImprovement
Spanish3.2%3.6%+11%
French3.5%3.9%+10%
German3.8%4.2%+10%
Chinese4.1%4.6%+11%
Japanese4.3%4.8%+10%
Arabic5.2%5.8%+10%
Вывод: large-v3 показывает стабильное улучшение на 10–11% на основных языках.

Бенчмарки скорости

Коэффициент реального времени (RTF)

RTF (Real-Time Factor) отражает скорость обработки:
  • RTF < 1,0: быстрее реального времени
  • RTF = 1,0: в реальном времени
  • RTF > 1,0: медленнее реального времени

Производительность GPU (NVIDIA RTX 4090)

ModelRTF (FP16)RTF (FP32)Speed (1hr audio)
large-v30.15x0.45x~9 minutes
large-v20.15x0.45x~9 minutes
medium0.08x0.25x~5 minutes
small0.04x0.12x~2.5 minutes
Вывод: large-v3 сохраняет ту же скорость, что и large-v2 (0,15× RTF на GPU).

Производительность CPU (Intel i7-12700K)

ModelRTFSpeed (1hr audio)
large-v38.5x~8.5 hours
large-v28.5x~8.5 hours
medium4.2x~4.2 hours
small2.1x~2.1 hours
Примечание: обработка на CPU намного медленнее; GPU настоятельно рекомендуется.

Требования к ресурсам

Использование памяти

ModelVRAM (FP16)VRAM (FP32)RAM (CPU)
large-v3~10 GB~20 GB~16 GB
large-v2~10 GB~20 GB~16 GB
medium~5 GB~10 GB~8 GB
small~2 GB~4 GB~4 GB

Требования к хранилищу

ModelModel File SizeDisk Space
large-v3~3.0 GB~3.0 GB
large-v2~3.0 GB~3.0 GB
medium~1.5 GB~1.5 GB
small~500 MB~500 MB

Сравнение производительности: large-v3 и large-v2

Улучшения точности

Metriclarge-v2large-v3Improvement
Clean Audio WER2.4%2.1%+12.5%
Real-World WER4.3%3.8%+12%
Noisy Audio WER5.9%5.2%+12%
Phone Call WER6.8%6.1%+10%
Accented Speech WER5.4%4.8%+11%
Итог: large-v3 даёт стабильное улучшение точности на 10–12% во всех условиях.

Сравнение скорости

Metriclarge-v2large-v3Difference
GPU RTF (FP16)0.15x0.15xSame
CPU RTF8.5x8.5xSame
Memory Usage~10 GB~10 GBSame
Итог: large-v3 сохраняет ту же скорость и те же требования к ресурсам, что и large-v2.

Методология бенчмарков

Тестовые наборы данных

Приведённые бенчмарки основаны на:
  1. LibriSpeech: чистая и зашумлённая английская речь
  2. Common Voice: многоязычное реальное аудио
  3. TED Talks: естественная речь с акцентами
  4. Phone Call Datasets: телефонное аудио
  5. Real-World Recordings: подкасты, встречи, интервью

Метрики оценки

  • WER (Word Error Rate): основная метрика точности
  • RTF (Real-Time Factor): метрика скорости
  • Использование памяти: требования VRAM/RAM
  • Задержка: время до первого слова (при стриминге)

Условия тестов

  • Оборудование: NVIDIA RTX 4090 (GPU), Intel i7-12700K (CPU)
  • ПО: Whisper v20231117, PyTorch 2.1, CUDA 12.1
  • Настройки: temperature=0.0, best_of=5, beam_size=5
  • Аудио: 16 кГц моно, формат WAV

Наблюдения для реальных задач

Когда выбирать large-v3

Выбирайте large-v3, если:
  • ✅ критична максимальная точность
  • ✅ есть доступ к GPU
  • ✅ время обработки не главное ограничение
  • ✅ работаете с шумом или акцентами
  • ✅ нужна многоязычная транскрипция
  • ✅ профессиональные или коммерческие сценарии

Когда выбирать другие модели

large-v2, если:
  • ✅ нужна сопоставимая с v3 производительность, но важна проверенная стабильность
  • ✅ инфраструктура уже заточена под v2
medium, если:
  • ✅ нужна более высокая скорость
  • ✅ умеренные требования к точности
  • ✅ ограничена память GPU (~5 ГБ)
small, если:
  • ✅ критична скорость
  • ✅ ниже требования к точности
  • ✅ ограничены вычислительные ресурсы

Советы по оптимизации

Максимальная точность

import whisper

model = whisper.load_model("large-v3")

result = model.transcribe(
    audio,
    language="en",  # Specify if known
    temperature=0.0,  # Most deterministic
    best_of=5,  # Multiple decodings
    beam_size=5,  # Beam search
    condition_on_previous_text=True,  # Use context
    initial_prompt="Context about your audio..."
)
Ожидаемый WER: 2,1–3,8% в зависимости от качества аудио

Баланс скорости и точности

model = whisper.load_model("large-v3")

result = model.transcribe(
    audio,
    language="en",
    temperature=0.0,
    best_of=1,  # Single decoding (faster)
    beam_size=5,
    condition_on_previous_text=True
)
Ожидаемый WER: 2,3–4,0% (чуть выше, но ~в 5 раз быстрее)

Сводка результатов бенчмарков

Сводка по точности

Conditionlarge-v3 WERRank
Clean Audio2.1%🥇 Best
Real-World3.8%🥇 Best
Noisy Audio5.2%🥇 Best
Phone Calls6.1%🥇 Best
Accented Speech4.8%🥇 Best

Сводка по скорости

Hardwarelarge-v3 RTFStatus
GPU (RTX 4090)0.15x⚡ Very Fast
CPU (i7-12700K)8.5x🐌 Slow

Сводка по ресурсам

ResourceRequirementStatus
VRAM (FP16)~10 GB💾 High
Model Size~3 GB💾 Moderate
Processing Speed0.15x RTF⚡ Fast

Сравнение с другими моделями

large-v3 и коммерческие API

ServiceWER (Clean)WER (Noisy)Cost
Whisper large-v32.1%5.2%Free (self-hosted)
Google Speech-to-Text2.3%5.8%$0.006/min
Deepgram2.5%6.1%$0.0043/min
AssemblyAI2.6%6.3%$0.00025/min
Вывод: large-v3 сопоставим или точнее коммерческих API при нулевой стоимости (self-hosted).

Практические рекомендации

Для продакшена

  1. large-v3 для максимальной точности
  2. Развёртывание на GPU для приемлемой скорости
  3. Оптимизированные настройки (temperature=0.0, best_of=5)
  4. Разбиение длинного аудио на фрагменты
  5. Указывайте язык, если он известен

Для разработки и тестов

  1. Модель medium для быстрых итераций
  2. Переход на large-v3 для финальной проверки точности
  3. Тесты на репрезентативном аудио вашего сценария

Экономичные развёртывания

  1. large-v3 (бесплатно, self-hosted)
  2. Оптимизация пакетной обработки под GPU
  3. medium, если стоимость GPU слишком высока

Ограничения и замечания

Известные ограничения

  1. Не в реальном времени: пакетная обработка
  2. Много памяти: ~10 ГБ VRAM
  3. Зависимость от GPU: CPU очень медленный
  4. Без стриминга: нужны полные фрагменты аудио
  5. Без диаризации: нужны отдельные инструменты

Когда large-v3 не лучший выбор

  • Транскрипция в реальном времени: стриминговый ASR
  • Очень низкая задержка: специализированные модели
  • Мало GPU: medium или small
  • Простые задачи: достаточно меньших моделей

Заключение

Whisper large-v3 — современный эталон в open-source распознавании речи:
  • Лучшая точность: 2,1% WER на чистом аудио
  • Стабильные улучшения: на 10–12% лучше large-v2
  • Та же скорость: без штрафа к large-v2
  • Сильная многоязычность: 99+ языков
  • Устойчивость к шуму: хорошо в реальных условиях
Главное:
  1. large-v3 — лучший выбор для максимальной точности
  2. GPU необходима для приемлемой скорости
  3. +10–12% точности к large-v2 при любых условиях
  4. Бесплатно и с открытым кодом с уровнем коммерческих API
  5. Подходит для: профессиональной транскрипции, многоязычного контента, шума
Для большинства продакшен-сценариев с высокой точностью рекомендуется Whisper large-v3.

Для готовой к продакшену транскрипции с оптимизированной производительностью Whisper large-v3 платформы вроде SayToWords предлагают управляемую инфраструктуру и автоматическую оптимизацию.

Попробовать бесплатно

Попробуйте наш сервис ИИ для работы с голосом, аудио и видео уже сейчас! Вы получите не только высокоточную транскрипцию речи в текст, многоязычный перевод и интеллектуальное разделение по дикторам, но и автоматическую генерацию субтитров к видео, умное редактирование аудио‑ и видеоконтента и синхронный аудио‑видео‑анализ. Решение охватывает все сценарии — от протоколирования встреч до создания коротких видео и подкастов. Начните бесплатный тест уже сегодня!

Звук в текст онлайнЗвук в текст бесплатноКонвертер звука в текстЗвук в текст MP3Звук в текст WAVЗвук в текст с метками времениЗвук в текст для встречSound to Text Multi LanguageЗвук в текст субтитрыКонвертировать WAV в текстГолос в ТекстГолос в Текст ОнлайнРечь в ТекстКонвертировать MP3 в текстКонвертировать голосовую запись в текстГолосовой Ввод ОнлайнГолос в Текст с Временными МеткамиГолос в Текст в Реальном ВремениГолос в Текст для Длинного АудиоГолос в Текст для ВидеоГолос в Текст для YouTubeГолос в Текст для ВидеомонтажаГолос в Текст для СубтитровГолос в Текст для ПодкастовГолос в Текст для ИнтервьюАудио интервью в текстГолос в Текст для ЗаписейГолос в Текст для ВстречГолос в Текст для ЛекцийГолос в Текст для ЗаметокГолос в Текст МногоязычныйГолос в Текст ТочныйГолос в Текст БыстроАльтернатива Premiere Pro Голос в ТекстАльтернатива DaVinci Голос в ТекстАльтернатива VEED Голос в ТекстАльтернатива InVideo Голос в ТекстАльтернатива Otter.ai Голос в ТекстАльтернатива Descript Голос в ТекстАльтернатива Trint Голос в ТекстАльтернатива Rev Голос в ТекстАльтернатива Sonix Голос в ТекстАльтернатива Happy Scribe Голос в ТекстАльтернатива Zoom Голос в ТекстАльтернатива Google Meet Голос в ТекстАльтернатива Microsoft Teams Голос в ТекстАльтернатива Fireflies.ai Голос в ТекстАльтернатива Fathom Голос в ТекстАльтернатива FlexClip Голос в ТекстАльтернатива Kapwing Голос в ТекстАльтернатива Canva Голос в ТекстГолос в Текст для Длинного АудиоИИ Голос в ТекстГолос в Текст БесплатноГолос в Текст Без РекламыГолос в Текст для Шумного АудиоГолос в Текст с ВременемГенерировать Субтитры из АудиоТранскрипция Подкастов ОнлайнТранскрибировать Звонки КлиентовГолос TikTok в ТекстАудио TikTok в ТекстYouTube Голос в ТекстYouTube Аудио в ТекстГолосовая Заметка в ТекстГолосовое Сообщение WhatsApp в ТекстГолосовое Сообщение Telegram в ТекстТранскрипция Звонка DiscordГолос Twitch в ТекстГолос Skype в ТекстГолос Messenger в ТекстГолосовое Сообщение LINE в ТекстТранскрибировать Влоги в ТекстКонвертировать Аудио Проповеди в ТекстПреобразовать Речь в ПисьмоПеревести Аудио в ТекстПреобразовать Аудио Заметки в ТекстГолосовой ВводГолосовой Ввод для ВстречГолосовой Ввод для YouTubeГовори и ПечатайПечать Без РукГолос в СловаРечь в СловаРечь в Текст ОнлайнOnline Transcription SoftwareРечь в Текст для ВстречБыстрая Речь в ТекстReal Time Speech to TextLive Transcription AppРечь в Текст для TikTokЗвук в Текст для TikTokРечь в Слова (говоря)Речь в ТекстTalk to Text FreeTalk to Text OnlineTalk to Text for YouTubeTalk to Text for SubtitlesTalk to Text for Content CreatorsTalk to Text for MeetingsАудио в ПечатьЗвук в ТекстИнструмент Голосового ПисанияИнструмент Речевого ПисанияГолосовая ДиктовкаИнструмент Юридической ТранскрипцииИнструмент Медицинской ДиктовкиЯпонская Аудио ТранскрипцияКорейская Транскрипция ВстречИнструмент Транскрипции ВстречАудио встречи в текстКонвертер Лекций в ТекстАудио лекции в текстТранскрипция Видео в ТекстГенератор Субтитров для TikTokТранскрипция Колл-ЦентраИнструмент Reels Аудио в ТекстТранскрибировать MP3 в ТекстТранскрибировать WAV файл в текстCapCut Голос в ТекстCapCut Голос в ТекстVoice to Text in EnglishАудио в текст на английскомVoice to Text in SpanishVoice to Text in FrenchАудио в текст на французскомVoice to Text in GermanАудио в текст на немецкомVoice to Text in JapaneseАудио в текст на японскомVoice to Text in KoreanАудио в текст на корейскомVoice to Text in PortugueseVoice to Text in ArabicVoice to Text in ChineseVoice to Text in HindiVoice to Text in RussianWeb Voice Typing ToolVoice Typing Website