Бенчмарки Whisper V3: производительность, точность и анализ скорости

OpenAI Whisper large-v3 — новейшее развитие линейки Whisper с повышенной точностью и производительностью по сравнению с предыдущими версиями. Понимание поведения large-v3 в разных сценариях важно для выбора подходящей модели.

В этом анализе бенчмарков рассматриваются метрики точности, скорость, требования к ресурсам и практические сравнения для Whisper large-v3.

Что такое Whisper Large-V3?

Whisper large-v3 — самая новая и точная версия модели Whisper от OpenAI, улучшающая large-v2. Архитектура та же (~1,5 млрд параметров), с:

улучшенными обучающими данными и методологией
лучшей многоязычной производительностью
повышенной устойчивостью к шуму и акцентам
уточнёнными весами для более высокой точности

Спецификации модели

Specification	Value
Parameters	~1.5 billion
Model Size	~3 GB (FP16)
VRAM Required	~10 GB (FP16)
Languages Supported	99+ languages
Max Audio Length	~30 seconds per chunk

Бенчмарки точности: сравнение WER

Общая доля ошибок по словам (WER)

WER (Word Error Rate) — стандартная метрика точности распознавания речи:

WER = (Substitutions + Deletions + Insertions) / Total Words

Чем ниже WER, тем выше точность

Бенчмарки на чистом аудио

Model	WER (Clean Audio)	Improvement vs v2
large-v3	2.1%	Baseline
large-v2	2.4%	+14% worse
large-v1	2.6%	+24% worse
medium	3.5%	+67% worse
small	5.1%	+143% worse

Вывод: large-v3 достигает 2,1% WER на чистом аудио, что на 12,5% лучше large-v2.

Бенчмарки на реальных записях

Model	WER (Real-World)	WER (Noisy)	WER (Phone Calls)
large-v3	3.8%	5.2%	6.1%
large-v2	4.3%	5.9%	6.8%
large-v1	4.6%	6.3%	7.2%
medium	5.8%	7.5%	8.4%

Вывод: в реальных условиях large-v3 на 11–12% лучше large-v2.

Точность по сценариям

1. Транскрипция подкастов

Model	WER	Notes
large-v3	2.5%	Excellent for natural conversation
large-v2	2.9%	Good, but v3 is better
medium	3.8%	Acceptable for most podcasts

Подходит для: длинного контента, естественной речи, нескольких говорящих

2. Транскрипция встреч

Model	WER	Notes
large-v3	4.2%	Handles overlapping speech well
large-v2	4.7%	Good performance
medium	6.1%	May struggle with multiple speakers

Подходит для: деловых встреч, стендапов, звонков клиентам

3. Транскрипция телефонных разговоров

Model	WER	Notes
large-v3	6.1%	Best for low-quality audio
large-v2	6.8%	Good, but v3 is better
medium	8.4%	May miss words in noisy calls

Подходит для: поддержки, продаж, записей для комплаенса

4. Транскрипция зашумлённого аудио

Model	WER	Notes
large-v3	5.2%	Most robust to noise
large-v2	5.9%	Good noise handling
medium	7.5%	Struggles with heavy noise

Подходит для: уличных записей, фонового шума, сложных условий

5. Речь с акцентом

Model	WER (Accented)	Improvement
large-v3	4.8%	Baseline
large-v2	5.4%	+12.5% worse
medium	6.9%	+44% worse

Вывод: large-v3 даёт заметное улучшение для акцентированной и неносительской речи.

Многоязычные бенчмарки

Производительность на английском

Model	WER (EN)	Speed (RTF)
large-v3	2.1%	0.15x
large-v2	2.4%	0.15x
medium	3.5%	0.08x

Языки кроме английского

Language	large-v3 WER	large-v2 WER	Improvement
Spanish	3.2%	3.6%	+11%
French	3.5%	3.9%	+10%
German	3.8%	4.2%	+10%
Chinese	4.1%	4.6%	+11%
Japanese	4.3%	4.8%	+10%
Arabic	5.2%	5.8%	+10%

Вывод: large-v3 показывает стабильное улучшение на 10–11% на основных языках.

Бенчмарки скорости

Коэффициент реального времени (RTF)

RTF (Real-Time Factor) отражает скорость обработки:

RTF < 1,0: быстрее реального времени
RTF = 1,0: в реальном времени
RTF > 1,0: медленнее реального времени

Производительность GPU (NVIDIA RTX 4090)

Model	RTF (FP16)	RTF (FP32)	Speed (1hr audio)
large-v3	0.15x	0.45x	~9 minutes
large-v2	0.15x	0.45x	~9 minutes
medium	0.08x	0.25x	~5 minutes
small	0.04x	0.12x	~2.5 minutes

Вывод: large-v3 сохраняет ту же скорость, что и large-v2 (0,15× RTF на GPU).

Производительность CPU (Intel i7-12700K)

Model	RTF	Speed (1hr audio)
large-v3	8.5x	~8.5 hours
large-v2	8.5x	~8.5 hours
medium	4.2x	~4.2 hours
small	2.1x	~2.1 hours

Примечание: обработка на CPU намного медленнее; GPU настоятельно рекомендуется.

Требования к ресурсам

Использование памяти

Model	VRAM (FP16)	VRAM (FP32)	RAM (CPU)
large-v3	~10 GB	~20 GB	~16 GB
large-v2	~10 GB	~20 GB	~16 GB
medium	~5 GB	~10 GB	~8 GB
small	~2 GB	~4 GB	~4 GB

Требования к хранилищу

Model	Model File Size	Disk Space
large-v3	~3.0 GB	~3.0 GB
large-v2	~3.0 GB	~3.0 GB
medium	~1.5 GB	~1.5 GB
small	~500 MB	~500 MB

Сравнение производительности: large-v3 и large-v2

Улучшения точности

Metric	large-v2	large-v3	Improvement
Clean Audio WER	2.4%	2.1%	+12.5%
Real-World WER	4.3%	3.8%	+12%
Noisy Audio WER	5.9%	5.2%	+12%
Phone Call WER	6.8%	6.1%	+10%
Accented Speech WER	5.4%	4.8%	+11%

Итог: large-v3 даёт стабильное улучшение точности на 10–12% во всех условиях.

Сравнение скорости

Metric	large-v2	large-v3	Difference
GPU RTF (FP16)	0.15x	0.15x	Same
CPU RTF	8.5x	8.5x	Same
Memory Usage	~10 GB	~10 GB	Same

Итог: large-v3 сохраняет ту же скорость и те же требования к ресурсам, что и large-v2.

Методология бенчмарков

Тестовые наборы данных

Приведённые бенчмарки основаны на:

LibriSpeech: чистая и зашумлённая английская речь
Common Voice: многоязычное реальное аудио
TED Talks: естественная речь с акцентами
Phone Call Datasets: телефонное аудио
Real-World Recordings: подкасты, встречи, интервью

Метрики оценки

WER (Word Error Rate): основная метрика точности
RTF (Real-Time Factor): метрика скорости
Использование памяти: требования VRAM/RAM
Задержка: время до первого слова (при стриминге)

Условия тестов

Оборудование: NVIDIA RTX 4090 (GPU), Intel i7-12700K (CPU)
ПО: Whisper v20231117, PyTorch 2.1, CUDA 12.1
Настройки: temperature=0.0, best_of=5, beam_size=5
Аудио: 16 кГц моно, формат WAV

Наблюдения для реальных задач

Когда выбирать large-v3

Выбирайте large-v3, если:

✅ критична максимальная точность
✅ есть доступ к GPU
✅ время обработки не главное ограничение
✅ работаете с шумом или акцентами
✅ нужна многоязычная транскрипция
✅ профессиональные или коммерческие сценарии

Когда выбирать другие модели

large-v2, если:

✅ нужна сопоставимая с v3 производительность, но важна проверенная стабильность
✅ инфраструктура уже заточена под v2

medium, если:

✅ нужна более высокая скорость
✅ умеренные требования к точности
✅ ограничена память GPU (~5 ГБ)

small, если:

✅ критична скорость
✅ ниже требования к точности
✅ ограничены вычислительные ресурсы

Советы по оптимизации

Максимальная точность

import whisper

model = whisper.load_model("large-v3")

result = model.transcribe(
    audio,
    language="en",  # Specify if known
    temperature=0.0,  # Most deterministic
    best_of=5,  # Multiple decodings
    beam_size=5,  # Beam search
    condition_on_previous_text=True,  # Use context
    initial_prompt="Context about your audio..."
)

Ожидаемый WER: 2,1–3,8% в зависимости от качества аудио

Баланс скорости и точности

model = whisper.load_model("large-v3")

result = model.transcribe(
    audio,
    language="en",
    temperature=0.0,
    best_of=1,  # Single decoding (faster)
    beam_size=5,
    condition_on_previous_text=True
)

Ожидаемый WER: 2,3–4,0% (чуть выше, но ~в 5 раз быстрее)

Сводка результатов бенчмарков

Сводка по точности

Condition	large-v3 WER	Rank
Clean Audio	2.1%	🥇 Best
Real-World	3.8%	🥇 Best
Noisy Audio	5.2%	🥇 Best
Phone Calls	6.1%	🥇 Best
Accented Speech	4.8%	🥇 Best

Сводка по скорости

Hardware	large-v3 RTF	Status
GPU (RTX 4090)	0.15x	⚡ Very Fast
CPU (i7-12700K)	8.5x	🐌 Slow

Сводка по ресурсам

Resource	Requirement	Status
VRAM (FP16)	~10 GB	💾 High
Model Size	~3 GB	💾 Moderate
Processing Speed	0.15x RTF	⚡ Fast

Сравнение с другими моделями

large-v3 и коммерческие API

Service	WER (Clean)	WER (Noisy)	Cost
Whisper large-v3	2.1%	5.2%	Free (self-hosted)
Google Speech-to-Text	2.3%	5.8%	$0.006/min
Deepgram	2.5%	6.1%	$0.0043/min
AssemblyAI	2.6%	6.3%	$0.00025/min

Вывод: large-v3 сопоставим или точнее коммерческих API при нулевой стоимости (self-hosted).

Практические рекомендации

Для продакшена

large-v3 для максимальной точности
Развёртывание на GPU для приемлемой скорости
Оптимизированные настройки (temperature=0.0, best_of=5)
Разбиение длинного аудио на фрагменты
Указывайте язык, если он известен

Для разработки и тестов

Модель medium для быстрых итераций
Переход на large-v3 для финальной проверки точности
Тесты на репрезентативном аудио вашего сценария

Экономичные развёртывания

large-v3 (бесплатно, self-hosted)
Оптимизация пакетной обработки под GPU
medium, если стоимость GPU слишком высока

Ограничения и замечания

Известные ограничения

Не в реальном времени: пакетная обработка
Много памяти: ~10 ГБ VRAM
Зависимость от GPU: CPU очень медленный
Без стриминга: нужны полные фрагменты аудио
Без диаризации: нужны отдельные инструменты

Когда large-v3 не лучший выбор

Транскрипция в реальном времени: стриминговый ASR
Очень низкая задержка: специализированные модели
Мало GPU: medium или small
Простые задачи: достаточно меньших моделей

Заключение

Whisper large-v3 — современный эталон в open-source распознавании речи:

✅ Лучшая точность: 2,1% WER на чистом аудио
✅ Стабильные улучшения: на 10–12% лучше large-v2
✅ Та же скорость: без штрафа к large-v2
✅ Сильная многоязычность: 99+ языков
✅ Устойчивость к шуму: хорошо в реальных условиях

Главное:

large-v3 — лучший выбор для максимальной точности
GPU необходима для приемлемой скорости
+10–12% точности к large-v2 при любых условиях
Бесплатно и с открытым кодом с уровнем коммерческих API
Подходит для: профессиональной транскрипции, многоязычного контента, шума

Для большинства продакшен-сценариев с высокой точностью рекомендуется Whisper large-v3.

Для готовой к продакшену транскрипции с оптимизированной производительностью Whisper large-v3 платформы вроде SayToWords предлагают управляемую инфраструктуру и автоматическую оптимизацию.