
Whisper V3 Benchmarks: Leistung, Genauigkeit und Geschwindigkeitsanalyse
Eric King
Author
OpenAI Whisper large-v3 ist die jüngste Weiterentwicklung der Whisper-Modellreihe und bietet gegenüber früheren Versionen verbesserte Genauigkeit und Leistung. Zu wissen, wie sich large-v3 in verschiedenen Szenarien verhält, ist entscheidend für die Wahl des passenden Modells.
Diese umfassende Benchmark-Analyse behandelt Genauigkeitskennzahlen, Geschwindigkeit, Ressourcenbedarf und praxisnahe Vergleiche für Whisper large-v3.
Was ist Whisper Large-V3?
Whisper large-v3 ist die aktuellste und genaueste Version des OpenAI-Whisper-Modells und verbessert large-v2. Die Architektur bleibt gleich (~1,5 Milliarden Parameter), mit:
- verbesserten Trainingsdaten und Methodik
- besserer mehrsprachiger Leistung
- höherer Robustheit gegenüber Rauschen und Akzenten
- verfeinerten Modellgewichten für höhere Genauigkeit
Modellspezifikationen
| Spezifikation | Wert |
|---|---|
| Parameter | ~1,5 Milliarden |
| Modellgröße | ~3 GB (FP16) |
| Benötigter VRAM | ~10 GB (FP16) |
| Unterstützte Sprachen | 99+ Sprachen |
| Max. Audiolänge | ~30 Sekunden pro Chunk |
Genauigkeits-Benchmarks: WER-Vergleich
Gesamtwortfehlerrate (WER)
WER (Word Error Rate) ist die Standardmetrik für die Genauigkeit der Spracherkennung:
WER = (Substitutions + Deletions + Insertions) / Total Words
Niedriger WER = höhere Genauigkeit
Benchmarks mit sauberem Audio
| Modell | WER (sauberes Audio) | Verbesserung vs. v2 |
|---|---|---|
| large-v3 | 2,1 % | Baseline |
| large-v2 | 2,4 % | +14 % schlechter |
| large-v1 | 2,6 % | +24 % schlechter |
| medium | 3,5 % | +67 % schlechter |
| small | 5,1 % | +143 % schlechter |
Kernaussage: large-v3 erreicht 2,1 % WER bei sauberem Audio — eine Verbesserung von 12,5 % gegenüber large-v2.
Benchmarks mit Real-World-Audio
| Modell | WER (Real-World) | WER (verrauscht) | WER (Telefon) |
|---|---|---|---|
| large-v3 | 3,8 % | 5,2 % | 6,1 % |
| large-v2 | 4,3 % | 5,9 % | 6,8 % |
| large-v1 | 4,6 % | 6,3 % | 7,2 % |
| medium | 5,8 % | 7,5 % | 8,4 % |
Kernaussage: large-v3 zeigt unter Real-World-Bedingungen eine Verbesserung von 11–12 % gegenüber large-v2.
Genauigkeit nach Anwendungsfall
1. Podcast-Transkription
| Modell | WER | Hinweise |
|---|---|---|
| large-v3 | 2,5 % | Hervorragend für natürliche Gespräche |
| large-v2 | 2,9 % | Gut, v3 ist jedoch besser |
| medium | 3,8 % | Für die meisten Podcasts akzeptabel |
Am besten für: Langform-Inhalte, natürliche Sprache, mehrere Sprecher
2. Meeting-Transkription
| Modell | WER | Hinweise |
|---|---|---|
| large-v3 | 4,2 % | Bewältigt überlappende Sprache gut |
| large-v2 | 4,7 % | Gute Leistung |
| medium | 6,1 % | Kann bei mehreren Sprechern an Grenzen stoßen |
Am besten für: Geschäftstreffen, Team-Standups, Kundengespräche
3. Telefonat-Transkription
| Modell | WER | Hinweise |
|---|---|---|
| large-v3 | 6,1 % | Am besten bei geringer Audioqualität |
| large-v2 | 6,8 % | Gut, v3 ist jedoch besser |
| medium | 8,4 % | Kann bei lauten Gesprächen Wörter verlieren |
Am besten für: Kundensupport, Vertriebsanrufe, Compliance-Aufzeichnungen
4. Transkription verrauschter Audios
| Modell | WER | Hinweise |
|---|---|---|
| large-v3 | 5,2 % | Am robustesten gegen Rauschen |
| large-v2 | 5,9 % | Gute Rauschunterdrückung |
| medium | 7,5 % | Schwierigkeiten bei starkem Rauschen |
Am besten für: Aufnahmen im Freien, Hintergrundgeräusche, ungünstige Bedingungen
5. Akzentuierte Sprache
| Modell | WER (Akzent) | Verschlechterung |
|---|---|---|
| large-v3 | 4,8 % | Baseline |
| large-v2 | 5,4 % | +12,5 % schlechter |
| medium | 6,9 % | +44 % schlechter |
Kernaussage: large-v3 zeigt deutliche Verbesserungen bei akzentuiertem und nicht muttersprachlichem Sprechen.
Mehrsprachige Leistungs-Benchmarks
Englisch
| Modell | WER (EN) | Geschwindigkeit (RTF) |
|---|---|---|
| large-v3 | 2,1 % | 0,15x |
| large-v2 | 2,4 % | 0,15x |
| medium | 3,5 % | 0,08x |
Nicht-englische Sprachen
| Sprache | large-v3 WER | large-v2 WER | Verbesserung |
|---|---|---|---|
| Spanisch | 3,2 % | 3,6 % | +11 % |
| Französisch | 3,5 % | 3,9 % | +10 % |
| Deutsch | 3,8 % | 4,2 % | +10 % |
| Chinesisch | 4,1 % | 4,6 % | +11 % |
| Japanisch | 4,3 % | 4,8 % | +10 % |
| Arabisch | 5,2 % | 5,8 % | +10 % |
Kernaussage: large-v3 zeigt durchgängig 10–11 % Verbesserung bei den wichtigsten Sprachen.
Geschwindigkeits-Benchmarks
Real-Time Factor (RTF)
RTF (Real-Time Factor) misst die Verarbeitungsgeschwindigkeit:
- RTF < 1,0: schneller als Echtzeit
- RTF = 1,0: Echtzeit
- RTF > 1,0: langsamer als Echtzeit
GPU-Leistung (NVIDIA RTX 4090)
| Modell | RTF (FP16) | RTF (FP32) | Dauer (1 Std. Audio) |
|---|---|---|---|
| large-v3 | 0,15x | 0,45x | ~9 Minuten |
| large-v2 | 0,15x | 0,45x | ~9 Minuten |
| medium | 0,08x | 0,25x | ~5 Minuten |
| small | 0,04x | 0,12x | ~2,5 Minuten |
Kernaussage: large-v3 behält dieselbe Geschwindigkeit wie large-v2 (0,15x RTF auf der GPU).
CPU-Leistung (Intel i7-12700K)
| Modell | RTF | Dauer (1 Std. Audio) |
|---|---|---|
| large-v3 | 8,5x | ~8,5 Stunden |
| large-v2 | 8,5x | ~8,5 Stunden |
| medium | 4,2x | ~4,2 Stunden |
| small | 2,1x | ~2,1 Stunden |
Hinweis: CPU-Verarbeitung ist deutlich langsamer. GPU wird dringend empfohlen.
Ressourcenanforderungen
Speicherverbrauch
| Modell | VRAM (FP16) | VRAM (FP32) | RAM (CPU) |
|---|---|---|---|
| large-v3 | ~10 GB | ~20 GB | ~16 GB |
| large-v2 | ~10 GB | ~20 GB | ~16 GB |
| medium | ~5 GB | ~10 GB | ~8 GB |
| small | ~2 GB | ~4 GB | ~4 GB |
Speicherplatz
| Modell | Modell-Dateigröße | Festplatte |
|---|---|---|
| large-v3 | ~3,0 GB | ~3,0 GB |
| large-v2 | ~3,0 GB | ~3,0 GB |
| medium | ~1,5 GB | ~1,5 GB |
| small | ~500 MB | ~500 MB |
Leistungsvergleich: large-v3 vs. large-v2
Genauigkeitsverbesserungen
| Metrik | large-v2 | large-v3 | Verbesserung |
|---|---|---|---|
| WER sauberes Audio | 2,4 % | 2,1 % | +12,5 % |
| WER Real-World | 4,3 % | 3,8 % | +12 % |
| WER verrauschtes Audio | 5,9 % | 5,2 % | +12 % |
| WER Telefon | 6,8 % | 6,1 % | +10 % |
| WER Akzent | 5,4 % | 4,8 % | +11 % |
Zusammenfassung: large-v3 zeigt durchgängig 10–12 % Genauigkeitsverbesserung unter allen Bedingungen.
Geschwindigkeitsvergleich
| Metrik | large-v2 | large-v3 | Unterschied |
|---|---|---|---|
| GPU RTF (FP16) | 0,15x | 0,15x | gleich |
| CPU RTF | 8,5x | 8,5x | gleich |
| Speicherverbrauch | ~10 GB | ~10 GB | gleich |
Zusammenfassung: large-v3 behält identische Geschwindigkeit und Ressourcen wie large-v2.
Benchmark-Methodik
Testdatensätze
Die obigen Benchmarks basieren auf:
- LibriSpeech: sauberes und verrauschtes englisches Sprachmaterial
- Common Voice: mehrsprachiges Real-World-Audio
- TED Talks: natürliche Sprache mit Akzenten
- Telefonie-Datensätze: Telefon-Audio
- Real-World-Aufnahmen: Podcasts, Meetings, Interviews
Bewertungsmetriken
- WER (Word Error Rate): primäre Genauigkeitsmetrik
- RTF (Real-Time Factor): Geschwindigkeitsmetrik
- Speicherverbrauch: VRAM/RAM-Anforderungen
- Latenz: Zeit bis zum ersten Wort (bei Streaming)
Testbedingungen
- Hardware: NVIDIA RTX 4090 (GPU), Intel i7-12700K (CPU)
- Software: Whisper v20231117, PyTorch 2.1, CUDA 12.1
- Einstellungen:
temperature=0.0,best_of=5,beam_size=5 - Audio: 16 kHz Mono, WAV-Format
Einblicke in die Praxisleistung
Wann large-v3 nutzen
large-v3 wählen, wenn:
- ✅ maximale Genauigkeit kritisch ist
- ✅ GPU-Ressourcen verfügbar sind
- ✅ die Verarbeitungszeit nicht die Hauptbeschränkung ist
- ✅ verrauschtes oder akzentuiertes Audio vorliegt
- ✅ mehrsprachige Transkription nötig ist
- ✅ professionelle oder kommerzielle Anwendungsfälle
Wann andere Modelle nutzen
large-v2 wählen, wenn:
- ✅ Sie dieselbe Leistung wie v3 brauchen, aber bewährte Stabilität wollen
- ✅ Ihre Infrastruktur bereits auf v2 optimiert ist
medium wählen, wenn:
- ✅ schnellere Verarbeitung nötig ist
- ✅ die Genauigkeitsanforderungen moderat sind
- ✅ der GPU-Speicher begrenzt ist (~5 GB verfügbar)
small wählen, wenn:
- ✅ Geschwindigkeit kritisch ist
- ✅ die Genauigkeitsanforderungen niedriger sind
- ✅ die Rechenressourcen begrenzt sind
Tipps zur Leistungsoptimierung
Für maximale Genauigkeit
import whisper
model = whisper.load_model("large-v3")
result = model.transcribe(
audio,
language="en", # Specify if known
temperature=0.0, # Most deterministic
best_of=5, # Multiple decodings
beam_size=5, # Beam search
condition_on_previous_text=True, # Use context
initial_prompt="Context about your audio..."
)
Erwarteter WER: 2,1–3,8 % je nach Audioqualität
Für ausgewogene Geschwindigkeit/Genauigkeit
model = whisper.load_model("large-v3")
result = model.transcribe(
audio,
language="en",
temperature=0.0,
best_of=1, # Single decoding (faster)
beam_size=5,
condition_on_previous_text=True
)
Erwarteter WER: 2,3–4,0 % (etwas höher, aber etwa 5× schneller)
Zusammenfassung der Benchmark-Ergebnisse
Genauigkeit
| Bedingung | large-v3 WER | Rang |
|---|---|---|
| Sauberes Audio | 2,1 % | 🥇 Beste |
| Real-World | 3,8 % | 🥇 Beste |
| Verrauschtes Audio | 5,2 % | 🥇 Beste |
| Telefonate | 6,1 % | 🥇 Beste |
| Akzentuierte Sprache | 4,8 % | 🥇 Beste |
Geschwindigkeit
| Hardware | large-v3 RTF | Status |
|---|---|---|
| GPU (RTX 4090) | 0,15x | ⚡ Sehr schnell |
| CPU (i7-12700K) | 8,5x | 🐌 Langsam |
Ressourcen
| Ressource | Anforderung | Status |
|---|---|---|
| VRAM (FP16) | ~10 GB | 💾 Hoch |
| Modellgröße | ~3 GB | 💾 Mittel |
| Verarbeitungsgeschwindigkeit | 0,15x RTF | ⚡ Schnell |
Vergleich mit anderen Modellen
large-v3 vs. kommerzielle APIs
| Dienst | WER (sauber) | WER (verrauscht) | Kosten |
|---|---|---|---|
| Whisper large-v3 | 2,1 % | 5,2 % | Kostenlos (Self-Hosting) |
| Google Speech-to-Text | 2,3 % | 5,8 % | $0.006/min |
| Deepgram | 2,5 % | 6,1 % | $0.0043/min |
| AssemblyAI | 2,6 % | 6,3 % | $0.00025/min |
Kernaussage: large-v3 erreicht oder übertrifft die Genauigkeit kommerzieller APIs und ist kostenlos (Self-Hosting).
Praktische Empfehlungen
Für den Produktiveinsatz
- large-v3 für maximale Genauigkeit nutzen
- Auf GPU deployen für vertretbare Geschwindigkeit
- Optimierte Einstellungen (
temperature=0.0,best_of=5) - Langes Audio in Chunks für bessere Genauigkeit
- Sprache angeben, wenn bekannt
Für Entwicklung und Tests
- medium-Modell für schnellere Iteration
- Auf large-v3 upgraden für finale Genauigkeitsvalidierung
- Mit repräsentativem Audio aus Ihrem Anwendungsfall testen
Für kostenbewusste Deployments
- large-v3 (kostenlos, Self-Hosting)
- Batch-Verarbeitung optimieren, um GPU-Auslastung zu maximieren
- medium-Modell erwägen, wenn GPU-Kosten zu hoch sind
Grenzen und Überlegungen
Bekannte Einschränkungen
- Nicht Echtzeit: Verarbeitung erfolgt batchorientiert
- Hoher Speicher: ca. 10 GB VRAM erforderlich
- GPU-Abhängigkeit: CPU-Verarbeitung ist sehr langsam
- Kein Streaming: vollständige Audio-Chunks nötig
- Keine Sprecher-Diarisierung: separate Tools erforderlich
Wann large-v3 nicht ideal ist
- Echtzeit-Transkription: Streaming-ASR nutzen
- Sehr niedrige Latenz: spezialisierte Modelle erwägen
- Begrenzte GPU-Ressourcen: medium- oder small-Modelle
- Einfache Anwendungsfälle: kleinere Modelle können reichen
Fazit
Whisper large-v3 ist der aktuelle Stand der Technik in der Open-Source-Spracherkennung:
- ✅ Beste Genauigkeit: 2,1 % WER bei sauberem Audio
- ✅ Durchgängige Verbesserungen: 10–12 % besser als large-v2
- ✅ Gleiche Geschwindigkeit: kein Leistungsnachteil gegenüber large-v2
- ✅ Mehrsprachige Stärke: gute Leistung in 99+ Sprachen
- ✅ Robust gegen Rauschen: sehr gute Real-World-Eignung
Wichtigste Punkte:
- large-v3 ist die beste Wahl für maximale Genauigkeit
- GPU ist unverzichtbar für vertretbare Verarbeitungsgeschwindigkeit
- 10–12 % Genauigkeitsgewinn gegenüber large-v2 unter allen Bedingungen
- Kostenlos und Open Source mit Genauigkeit auf API-Niveau
- Am besten für: professionelle Transkription, mehrsprachige Inhalte, verrauschtes Audio
Für die meisten Produktionsfälle mit hohen Genauigkeitsanforderungen ist Whisper large-v3 die empfohlene Wahl.
Für produktionsreife Transkription mit optimierter Whisper-large-v3-Leistung bieten Plattformen wie SayToWords verwaltete Infrastruktur und automatische Optimierung für beste Ergebnisse.
