
Benchmarks Whisper V3 : analyse des performances, de la précision et de la vitesse
Eric King
Author
Whisper large-v3 d'OpenAI est la dernière évolution de la famille Whisper, avec une précision et des performances améliorées par rapport aux versions précédentes. Comprendre le comportement de large-v3 dans différents scénarios est essentiel pour choisir le bon modèle.
Cette analyse de benchmarks couvre les métriques de précision, la vitesse, les besoins en ressources et des comparaisons concrètes pour Whisper large-v3.
Qu'est-ce que Whisper Large-V3 ?
Whisper large-v3 est la version la plus récente et la plus précise du modèle Whisper d'OpenAI, en amélioration par rapport à large-v2. Il conserve la même architecture (~1,5 milliard de paramètres) avec :
- Données d'entraînement et méthodologie améliorées
- Meilleures performances multilingues
- Robustesse accrue au bruit et aux accents
- Poids de modèle affinés pour une précision plus élevée
Spécifications du modèle
| Specification | Value |
|---|---|
| Parameters | ~1.5 billion |
| Model Size | ~3 GB (FP16) |
| VRAM Required | ~10 GB (FP16) |
| Languages Supported | 99+ languages |
| Max Audio Length | ~30 seconds per chunk |
Benchmarks de précision : comparaison WER
Taux d'erreur mots (WER) global
WER (Word Error Rate) est la métrique standard de précision en reconnaissance vocale :
WER = (Substitutions + Deletions + Insertions) / Total Words
WER plus bas = précision plus élevée
Benchmarks audio propre
| Model | WER (Clean Audio) | Improvement vs v2 |
|---|---|---|
| large-v3 | 2.1% | Baseline |
| large-v2 | 2.4% | +14% worse |
| large-v1 | 2.6% | +24% worse |
| medium | 3.5% | +67% worse |
| small | 5.1% | +143% worse |
Constat : large-v3 atteint 2,1 % de WER sur audio propre, soit une amélioration de 12,5 % par rapport à large-v2.
Benchmarks conditions réelles
| Model | WER (Real-World) | WER (Noisy) | WER (Phone Calls) |
|---|---|---|---|
| large-v3 | 3.8% | 5.2% | 6.1% |
| large-v2 | 4.3% | 5.9% | 6.8% |
| large-v1 | 4.6% | 6.3% | 7.2% |
| medium | 5.8% | 7.5% | 8.4% |
Constat : large-v3 affiche 11 à 12 % d'amélioration par rapport à large-v2 en conditions réelles.
Précision par cas d'usage
1. Transcription de podcasts
| Model | WER | Notes |
|---|---|---|
| large-v3 | 2.5% | Excellent pour la conversation naturelle |
| large-v2 | 2.9% | Bon, mais v3 est meilleur |
| medium | 3.8% | Acceptable pour la plupart des podcasts |
Idéal pour : contenus longs, parole naturelle, plusieurs locuteurs
2. Transcription de réunions
| Model | WER | Notes |
|---|---|---|
| large-v3 | 4.2% | Gère bien le chevauchement vocal |
| large-v2 | 4.7% | Bonnes performances |
| medium | 6.1% | Peut peiner avec plusieurs locuteurs |
Idéal pour : réunions d'entreprise, stand-ups, appels clients
3. Transcription d'appels téléphoniques
| Model | WER | Notes |
|---|---|---|
| large-v3 | 6.1% | Le mieux pour audio de faible qualité |
| large-v2 | 6.8% | Bon, mais v3 est meilleur |
| medium | 8.4% | Peut manquer des mots sur appels bruyants |
Idéal pour : support client, ventes, enregistrements conformité
4. Transcription avec bruit
| Model | WER | Notes |
|---|---|---|
| large-v3 | 5.2% | Le plus robuste au bruit |
| large-v2 | 5.9% | Bonne gestion du bruit |
| medium | 7.5% | Difficultés avec beaucoup de bruit |
Idéal pour : enregistrements extérieurs, bruit de fond, conditions difficiles
5. Parole accentuée
| Model | WER (Accented) | Improvement |
|---|---|---|
| large-v3 | 4.8% | Baseline |
| large-v2 | 5.4% | +12.5% worse |
| medium | 6.9% | +44% worse |
Constat : large-v3 apporte une amélioration nette pour la parole accentuée et non native.
Benchmarks multilingues
Performance en anglais
| Model | WER (EN) | Speed (RTF) |
|---|---|---|
| large-v3 | 2.1% | 0.15x |
| large-v2 | 2.4% | 0.15x |
| medium | 3.5% | 0.08x |
Langues autres que l'anglais
| Language | large-v3 WER | large-v2 WER | Improvement |
|---|---|---|---|
| Spanish | 3.2% | 3.6% | +11% |
| French | 3.5% | 3.9% | +10% |
| German | 3.8% | 4.2% | +10% |
| Chinese | 4.1% | 4.6% | +11% |
| Japanese | 4.3% | 4.8% | +10% |
| Arabic | 5.2% | 5.8% | +10% |
Constat : large-v3 affiche une amélioration stable de 10 à 11 % sur les principales langues.
Benchmarks de vitesse
Facteur temps réel (RTF)
RTF (Real-Time Factor) mesure la vitesse de traitement :
- RTF < 1,0 : plus rapide que le temps réel
- RTF = 1,0 : temps réel
- RTF > 1,0 : plus lent que le temps réel
Performance GPU (NVIDIA RTX 4090)
| Model | RTF (FP16) | RTF (FP32) | Speed (1hr audio) |
|---|---|---|---|
| large-v3 | 0.15x | 0.45x | ~9 minutes |
| large-v2 | 0.15x | 0.45x | ~9 minutes |
| medium | 0.08x | 0.25x | ~5 minutes |
| small | 0.04x | 0.12x | ~2.5 minutes |
Constat : large-v3 conserve la même vitesse que large-v2 (0,15× RTF sur GPU).
Performance CPU (Intel i7-12700K)
| Model | RTF | Speed (1hr audio) |
|---|---|---|
| large-v3 | 8.5x | ~8.5 hours |
| large-v2 | 8.5x | ~8.5 hours |
| medium | 4.2x | ~4.2 hours |
| small | 2.1x | ~2.1 hours |
Note : le traitement CPU est beaucoup plus lent. Le GPU est fortement recommandé.
Besoins en ressources
Mémoire
| Model | VRAM (FP16) | VRAM (FP32) | RAM (CPU) |
|---|---|---|---|
| large-v3 | ~10 GB | ~20 GB | ~16 GB |
| large-v2 | ~10 GB | ~20 GB | ~16 GB |
| medium | ~5 GB | ~10 GB | ~8 GB |
| small | ~2 GB | ~4 GB | ~4 GB |
Stockage
| Model | Model File Size | Disk Space |
|---|---|---|
| large-v3 | ~3.0 GB | ~3.0 GB |
| large-v2 | ~3.0 GB | ~3.0 GB |
| medium | ~1.5 GB | ~1.5 GB |
| small | ~500 MB | ~500 MB |
Comparaison de performance : large-v3 vs large-v2
Gains de précision
| Metric | large-v2 | large-v3 | Improvement |
|---|---|---|---|
| Clean Audio WER | 2.4% | 2.1% | +12.5% |
| Real-World WER | 4.3% | 3.8% | +12% |
| Noisy Audio WER | 5.9% | 5.2% | +12% |
| Phone Call WER | 6.8% | 6.1% | +10% |
| Accented Speech WER | 5.4% | 4.8% | +11% |
Synthèse : large-v3 offre 10 à 12 % de précision en plus dans toutes les conditions.
Comparaison de vitesse
| Metric | large-v2 | large-v3 | Difference |
|---|---|---|---|
| GPU RTF (FP16) | 0.15x | 0.15x | Same |
| CPU RTF | 8.5x | 8.5x | Same |
| Memory Usage | ~10 GB | ~10 GB | Same |
Synthèse : large-v3 garde la même vitesse et la même empreinte mémoire que large-v2.
Méthodologie des benchmarks
Jeux de données de test
Les benchmarks ci-dessus s'appuient sur :
- LibriSpeech : parole anglaise propre et bruitée
- Common Voice : audio multilingue du monde réel
- TED Talks : parole naturelle avec accents
- Phone Call Datasets : audio téléphonique
- Real-World Recordings : podcasts, réunions, interviews
Métriques d'évaluation
- WER (Word Error Rate) : métrique de précision principale
- RTF (Real-Time Factor) : métrique de vitesse
- Memory Usage : besoins VRAM/RAM
- Latency : délai jusqu'au premier mot (streaming)
Conditions de test
- Hardware : NVIDIA RTX 4090 (GPU), Intel i7-12700K (CPU)
- Software : Whisper v20231117, PyTorch 2.1, CUDA 12.1
- Settings :
temperature=0.0,best_of=5,beam_size=5 - Audio : 16 kHz mono, format WAV
Retours d'expérience
Quand choisir large-v3
Préférez large-v3 lorsque :
- ✅ la précision maximale est critique
- ✅ vous disposez d'un GPU
- ✅ le temps de traitement n'est pas la contrainte principale
- ✅ vous traitez de l'audio bruité ou accentué
- ✅ la transcription multilingue est requise
- ✅ les cas d'usage sont professionnels ou commerciaux
Quand choisir d'autres modèles
Préférez large-v2 lorsque :
- ✅ vous voulez des performances identiques à v3 avec une stabilité éprouvée
- ✅ votre infrastructure est déjà optimisée pour v2
Préférez medium lorsque :
- ✅ vous avez besoin de traitement plus rapide
- ✅ les exigences de précision sont modérées
- ✅ la mémoire GPU est limitée (~5 Go disponibles)
Préférez small lorsque :
- ✅ la vitesse est prioritaire
- ✅ les exigences de précision sont plus basses
- ✅ les ressources de calcul sont limitées
Conseils d'optimisation
Précision maximale
import whisper
model = whisper.load_model("large-v3")
result = model.transcribe(
audio,
language="en", # Specify if known
temperature=0.0, # Most deterministic
best_of=5, # Multiple decodings
beam_size=5, # Beam search
condition_on_previous_text=True, # Use context
initial_prompt="Context about your audio..."
)
WER attendu : 2,1 à 3,8 % selon la qualité audio
Compromis vitesse/précision
model = whisper.load_model("large-v3")
result = model.transcribe(
audio,
language="en",
temperature=0.0,
best_of=1, # Single decoding (faster)
beam_size=5,
condition_on_previous_text=True
)
WER attendu : 2,3 à 4,0 % (légèrement plus élevé mais ~5× plus rapide)
Synthèse des résultats
Précision
| Condition | large-v3 WER | Rank |
|---|---|---|
| Clean Audio | 2.1% | 🥇 Best |
| Real-World | 3.8% | 🥇 Best |
| Noisy Audio | 5.2% | 🥇 Best |
| Phone Calls | 6.1% | 🥇 Best |
| Accented Speech | 4.8% | 🥇 Best |
Vitesse
| Hardware | large-v3 RTF | Status |
|---|---|---|
| GPU (RTX 4090) | 0.15x | ⚡ Very Fast |
| CPU (i7-12700K) | 8.5x | 🐌 Slow |
Ressources
| Resource | Requirement | Status |
|---|---|---|
| VRAM (FP16) | ~10 GB | 💾 High |
| Model Size | ~3 GB | 💾 Moderate |
| Processing Speed | 0.15x RTF | ⚡ Fast |
Comparaison avec d'autres modèles
large-v3 vs API commerciales
| Service | WER (Clean) | WER (Noisy) | Cost |
|---|---|---|---|
| Whisper large-v3 | 2.1% | 5.2% | Free (self-hosted) |
| Google Speech-to-Text | 2.3% | 5.8% | $0.006/min |
| Deepgram | 2.5% | 6.1% | $0.0043/min |
| AssemblyAI | 2.6% | 6.3% | $0.00025/min |
Constat : large-v3 égale ou dépasse la précision des API commerciales, gratuitement (auto-hébergé).
Recommandations pratiques
Production
- Utilisez large-v3 pour la précision maximale
- Déployez sur GPU pour une vitesse acceptable
- Paramètres optimisés (
temperature=0.0,best_of=5) - Découpez les longs fichiers pour de meilleurs résultats
- Indiquez la langue si elle est connue
Développement et tests
- Modèle medium pour itérer plus vite
- Passage à large-v3 pour la validation finale
- Tests sur des extraits représentatifs de votre usage
Déploiements soucieux des coûts
- large-v3 (gratuit, auto-hébergé)
- Optimisez le traitement par lots pour la GPU
- Envisagez medium si le coût GPU est trop élevé
Limites
Limites connues
- Pas du temps réel : traitement par lots
- Mémoire élevée : ~10 Go de VRAM
- Dépendance au GPU : CPU très lent
- Pas de streaming : chunks audio complets requis
- Pas de diarisation : outils séparés nécessaires
Quand large-v3 n'est pas le meilleur choix
- Transcription temps réel : préférer l'ASR streaming
- Latence très faible : modèles spécialisés
- GPU limité : medium ou small
- Cas simples : petits modèles suffisants
Conclusion
Whisper large-v3 représente l'état de l'art open source en reconnaissance vocale :
- ✅ Meilleure précision : 2,1 % WER sur audio propre
- ✅ Gains réguliers : 10 à 12 % de mieux que large-v2
- ✅ Même vitesse : pas de pénalité vs large-v2
- ✅ Excellence multilingue : forte performance sur 99+ langues
- ✅ Robustesse au bruit : excellent en conditions réelles
Points clés :
- large-v3 est le meilleur choix pour la précision maximale
- Le GPU est indispensable pour une vitesse raisonnable
- 10 à 12 % de précision en plus que large-v2 dans toutes les conditions
- Gratuit et open source avec une précision de niveau API commerciale
- Idéal pour : transcription pro, contenu multilingue, audio bruité
Pour la plupart des déploiements production exigeant une haute précision, Whisper large-v3 est le choix recommandé.
Pour une transcription prête pour la production avec Whisper large-v3 optimisé, des plateformes comme SayToWords fournissent une infrastructure gérée et une optimisation automatique pour les meilleurs résultats.
