
Бенчмарки Whisper V3: производительность, точность и анализ скорости
Eric King
Author
OpenAI Whisper large-v3 — новейшее развитие линейки Whisper с повышенной точностью и производительностью по сравнению с предыдущими версиями. Понимание поведения large-v3 в разных сценариях важно для выбора подходящей модели.
В этом анализе бенчмарков рассматриваются метрики точности, скорость, требования к ресурсам и практические сравнения для Whisper large-v3.
Что такое Whisper Large-V3?
Whisper large-v3 — самая новая и точная версия модели Whisper от OpenAI, улучшающая large-v2. Архитектура та же (~1,5 млрд параметров), с:
- улучшенными обучающими данными и методологией
- лучшей многоязычной производительностью
- повышенной устойчивостью к шуму и акцентам
- уточнёнными весами для более высокой точности
Спецификации модели
| Specification | Value |
|---|---|
| Parameters | ~1.5 billion |
| Model Size | ~3 GB (FP16) |
| VRAM Required | ~10 GB (FP16) |
| Languages Supported | 99+ languages |
| Max Audio Length | ~30 seconds per chunk |
Бенчмарки точности: сравнение WER
Общая доля ошибок по словам (WER)
WER (Word Error Rate) — стандартная метрика точности распознавания речи:
WER = (Substitutions + Deletions + Insertions) / Total Words
Чем ниже WER, тем выше точность
Бенчмарки на чистом аудио
| Model | WER (Clean Audio) | Improvement vs v2 |
|---|---|---|
| large-v3 | 2.1% | Baseline |
| large-v2 | 2.4% | +14% worse |
| large-v1 | 2.6% | +24% worse |
| medium | 3.5% | +67% worse |
| small | 5.1% | +143% worse |
Вывод: large-v3 достигает 2,1% WER на чистом аудио, что на 12,5% лучше large-v2.
Бенчмарки на реальных записях
| Model | WER (Real-World) | WER (Noisy) | WER (Phone Calls) |
|---|---|---|---|
| large-v3 | 3.8% | 5.2% | 6.1% |
| large-v2 | 4.3% | 5.9% | 6.8% |
| large-v1 | 4.6% | 6.3% | 7.2% |
| medium | 5.8% | 7.5% | 8.4% |
Вывод: в реальных условиях large-v3 на 11–12% лучше large-v2.
Точность по сценариям
1. Транскрипция подкастов
| Model | WER | Notes |
|---|---|---|
| large-v3 | 2.5% | Excellent for natural conversation |
| large-v2 | 2.9% | Good, but v3 is better |
| medium | 3.8% | Acceptable for most podcasts |
Подходит для: длинного контента, естественной речи, нескольких говорящих
2. Транскрипция встреч
| Model | WER | Notes |
|---|---|---|
| large-v3 | 4.2% | Handles overlapping speech well |
| large-v2 | 4.7% | Good performance |
| medium | 6.1% | May struggle with multiple speakers |
Подходит для: деловых встреч, стендапов, звонков клиентам
3. Транскрипция телефонных разговоров
| Model | WER | Notes |
|---|---|---|
| large-v3 | 6.1% | Best for low-quality audio |
| large-v2 | 6.8% | Good, but v3 is better |
| medium | 8.4% | May miss words in noisy calls |
Подходит для: поддержки, продаж, записей для комплаенса
4. Транскрипция зашумлённого аудио
| Model | WER | Notes |
|---|---|---|
| large-v3 | 5.2% | Most robust to noise |
| large-v2 | 5.9% | Good noise handling |
| medium | 7.5% | Struggles with heavy noise |
Подходит для: уличных записей, фонового шума, сложных условий
5. Речь с акцентом
| Model | WER (Accented) | Improvement |
|---|---|---|
| large-v3 | 4.8% | Baseline |
| large-v2 | 5.4% | +12.5% worse |
| medium | 6.9% | +44% worse |
Вывод: large-v3 даёт заметное улучшение для акцентированной и неносительской речи.
Многоязычные бенчмарки
Производительность на английском
| Model | WER (EN) | Speed (RTF) |
|---|---|---|
| large-v3 | 2.1% | 0.15x |
| large-v2 | 2.4% | 0.15x |
| medium | 3.5% | 0.08x |
Языки кроме английского
| Language | large-v3 WER | large-v2 WER | Improvement |
|---|---|---|---|
| Spanish | 3.2% | 3.6% | +11% |
| French | 3.5% | 3.9% | +10% |
| German | 3.8% | 4.2% | +10% |
| Chinese | 4.1% | 4.6% | +11% |
| Japanese | 4.3% | 4.8% | +10% |
| Arabic | 5.2% | 5.8% | +10% |
Вывод: large-v3 показывает стабильное улучшение на 10–11% на основных языках.
Бенчмарки скорости
Коэффициент реального времени (RTF)
RTF (Real-Time Factor) отражает скорость обработки:
- RTF < 1,0: быстрее реального времени
- RTF = 1,0: в реальном времени
- RTF > 1,0: медленнее реального времени
Производительность GPU (NVIDIA RTX 4090)
| Model | RTF (FP16) | RTF (FP32) | Speed (1hr audio) |
|---|---|---|---|
| large-v3 | 0.15x | 0.45x | ~9 minutes |
| large-v2 | 0.15x | 0.45x | ~9 minutes |
| medium | 0.08x | 0.25x | ~5 minutes |
| small | 0.04x | 0.12x | ~2.5 minutes |
Вывод: large-v3 сохраняет ту же скорость, что и large-v2 (0,15× RTF на GPU).
Производительность CPU (Intel i7-12700K)
| Model | RTF | Speed (1hr audio) |
|---|---|---|
| large-v3 | 8.5x | ~8.5 hours |
| large-v2 | 8.5x | ~8.5 hours |
| medium | 4.2x | ~4.2 hours |
| small | 2.1x | ~2.1 hours |
Примечание: обработка на CPU намного медленнее; GPU настоятельно рекомендуется.
Требования к ресурсам
Использование памяти
| Model | VRAM (FP16) | VRAM (FP32) | RAM (CPU) |
|---|---|---|---|
| large-v3 | ~10 GB | ~20 GB | ~16 GB |
| large-v2 | ~10 GB | ~20 GB | ~16 GB |
| medium | ~5 GB | ~10 GB | ~8 GB |
| small | ~2 GB | ~4 GB | ~4 GB |
Требования к хранилищу
| Model | Model File Size | Disk Space |
|---|---|---|
| large-v3 | ~3.0 GB | ~3.0 GB |
| large-v2 | ~3.0 GB | ~3.0 GB |
| medium | ~1.5 GB | ~1.5 GB |
| small | ~500 MB | ~500 MB |
Сравнение производительности: large-v3 и large-v2
Улучшения точности
| Metric | large-v2 | large-v3 | Improvement |
|---|---|---|---|
| Clean Audio WER | 2.4% | 2.1% | +12.5% |
| Real-World WER | 4.3% | 3.8% | +12% |
| Noisy Audio WER | 5.9% | 5.2% | +12% |
| Phone Call WER | 6.8% | 6.1% | +10% |
| Accented Speech WER | 5.4% | 4.8% | +11% |
Итог: large-v3 даёт стабильное улучшение точности на 10–12% во всех условиях.
Сравнение скорости
| Metric | large-v2 | large-v3 | Difference |
|---|---|---|---|
| GPU RTF (FP16) | 0.15x | 0.15x | Same |
| CPU RTF | 8.5x | 8.5x | Same |
| Memory Usage | ~10 GB | ~10 GB | Same |
Итог: large-v3 сохраняет ту же скорость и те же требования к ресурсам, что и large-v2.
Методология бенчмарков
Тестовые наборы данных
Приведённые бенчмарки основаны на:
- LibriSpeech: чистая и зашумлённая английская речь
- Common Voice: многоязычное реальное аудио
- TED Talks: естественная речь с акцентами
- Phone Call Datasets: телефонное аудио
- Real-World Recordings: подкасты, встречи, интервью
Метрики оценки
- WER (Word Error Rate): основная метрика точности
- RTF (Real-Time Factor): метрика скорости
- Использование памяти: требования VRAM/RAM
- Задержка: время до первого слова (при стриминге)
Условия тестов
- Оборудование: NVIDIA RTX 4090 (GPU), Intel i7-12700K (CPU)
- ПО: Whisper v20231117, PyTorch 2.1, CUDA 12.1
- Настройки:
temperature=0.0,best_of=5,beam_size=5 - Аудио: 16 кГц моно, формат WAV
Наблюдения для реальных задач
Когда выбирать large-v3
Выбирайте large-v3, если:
- ✅ критична максимальная точность
- ✅ есть доступ к GPU
- ✅ время обработки не главное ограничение
- ✅ работаете с шумом или акцентами
- ✅ нужна многоязычная транскрипция
- ✅ профессиональные или коммерческие сценарии
Когда выбирать другие модели
large-v2, если:
- ✅ нужна сопоставимая с v3 производительность, но важна проверенная стабильность
- ✅ инфраструктура уже заточена под v2
medium, если:
- ✅ нужна более высокая скорость
- ✅ умеренные требования к точности
- ✅ ограничена память GPU (~5 ГБ)
small, если:
- ✅ критична скорость
- ✅ ниже требования к точности
- ✅ ограничены вычислительные ресурсы
Советы по оптимизации
Максимальная точность
import whisper
model = whisper.load_model("large-v3")
result = model.transcribe(
audio,
language="en", # Specify if known
temperature=0.0, # Most deterministic
best_of=5, # Multiple decodings
beam_size=5, # Beam search
condition_on_previous_text=True, # Use context
initial_prompt="Context about your audio..."
)
Ожидаемый WER: 2,1–3,8% в зависимости от качества аудио
Баланс скорости и точности
model = whisper.load_model("large-v3")
result = model.transcribe(
audio,
language="en",
temperature=0.0,
best_of=1, # Single decoding (faster)
beam_size=5,
condition_on_previous_text=True
)
Ожидаемый WER: 2,3–4,0% (чуть выше, но ~в 5 раз быстрее)
Сводка результатов бенчмарков
Сводка по точности
| Condition | large-v3 WER | Rank |
|---|---|---|
| Clean Audio | 2.1% | 🥇 Best |
| Real-World | 3.8% | 🥇 Best |
| Noisy Audio | 5.2% | 🥇 Best |
| Phone Calls | 6.1% | 🥇 Best |
| Accented Speech | 4.8% | 🥇 Best |
Сводка по скорости
| Hardware | large-v3 RTF | Status |
|---|---|---|
| GPU (RTX 4090) | 0.15x | ⚡ Very Fast |
| CPU (i7-12700K) | 8.5x | 🐌 Slow |
Сводка по ресурсам
| Resource | Requirement | Status |
|---|---|---|
| VRAM (FP16) | ~10 GB | 💾 High |
| Model Size | ~3 GB | 💾 Moderate |
| Processing Speed | 0.15x RTF | ⚡ Fast |
Сравнение с другими моделями
large-v3 и коммерческие API
| Service | WER (Clean) | WER (Noisy) | Cost |
|---|---|---|---|
| Whisper large-v3 | 2.1% | 5.2% | Free (self-hosted) |
| Google Speech-to-Text | 2.3% | 5.8% | $0.006/min |
| Deepgram | 2.5% | 6.1% | $0.0043/min |
| AssemblyAI | 2.6% | 6.3% | $0.00025/min |
Вывод: large-v3 сопоставим или точнее коммерческих API при нулевой стоимости (self-hosted).
Практические рекомендации
Для продакшена
- large-v3 для максимальной точности
- Развёртывание на GPU для приемлемой скорости
- Оптимизированные настройки (
temperature=0.0,best_of=5) - Разбиение длинного аудио на фрагменты
- Указывайте язык, если он известен
Для разработки и тестов
- Модель medium для быстрых итераций
- Переход на large-v3 для финальной проверки точности
- Тесты на репрезентативном аудио вашего сценария
Экономичные развёртывания
- large-v3 (бесплатно, self-hosted)
- Оптимизация пакетной обработки под GPU
- medium, если стоимость GPU слишком высока
Ограничения и замечания
Известные ограничения
- Не в реальном времени: пакетная обработка
- Много памяти: ~10 ГБ VRAM
- Зависимость от GPU: CPU очень медленный
- Без стриминга: нужны полные фрагменты аудио
- Без диаризации: нужны отдельные инструменты
Когда large-v3 не лучший выбор
- Транскрипция в реальном времени: стриминговый ASR
- Очень низкая задержка: специализированные модели
- Мало GPU: medium или small
- Простые задачи: достаточно меньших моделей
Заключение
Whisper large-v3 — современный эталон в open-source распознавании речи:
- ✅ Лучшая точность: 2,1% WER на чистом аудио
- ✅ Стабильные улучшения: на 10–12% лучше large-v2
- ✅ Та же скорость: без штрафа к large-v2
- ✅ Сильная многоязычность: 99+ языков
- ✅ Устойчивость к шуму: хорошо в реальных условиях
Главное:
- large-v3 — лучший выбор для максимальной точности
- GPU необходима для приемлемой скорости
- +10–12% точности к large-v2 при любых условиях
- Бесплатно и с открытым кодом с уровнем коммерческих API
- Подходит для: профессиональной транскрипции, многоязычного контента, шума
Для большинства продакшен-сценариев с высокой точностью рекомендуется Whisper large-v3.
Для готовой к продакшену транскрипции с оптимизированной производительностью Whisper large-v3 платформы вроде SayToWords предлагают управляемую инфраструктуру и автоматическую оптимизацию.
