Whisper V3 Benchmarks: Leistung, Genauigkeit und Geschwindigkeitsanalyse

OpenAI Whisper large-v3 ist die jüngste Weiterentwicklung der Whisper-Modellreihe und bietet gegenüber früheren Versionen verbesserte Genauigkeit und Leistung. Zu wissen, wie sich large-v3 in verschiedenen Szenarien verhält, ist entscheidend für die Wahl des passenden Modells.

Diese umfassende Benchmark-Analyse behandelt Genauigkeitskennzahlen, Geschwindigkeit, Ressourcenbedarf und praxisnahe Vergleiche für Whisper large-v3.

Was ist Whisper Large-V3?

Whisper large-v3 ist die aktuellste und genaueste Version des OpenAI-Whisper-Modells und verbessert large-v2. Die Architektur bleibt gleich (~1,5 Milliarden Parameter), mit:

verbesserten Trainingsdaten und Methodik
besserer mehrsprachiger Leistung
höherer Robustheit gegenüber Rauschen und Akzenten
verfeinerten Modellgewichten für höhere Genauigkeit

Modellspezifikationen

Spezifikation	Wert
Parameter	~1,5 Milliarden
Modellgröße	~3 GB (FP16)
Benötigter VRAM	~10 GB (FP16)
Unterstützte Sprachen	99+ Sprachen
Max. Audiolänge	~30 Sekunden pro Chunk

Genauigkeits-Benchmarks: WER-Vergleich

Gesamtwortfehlerrate (WER)

WER (Word Error Rate) ist die Standardmetrik für die Genauigkeit der Spracherkennung:

WER = (Substitutions + Deletions + Insertions) / Total Words

Niedriger WER = höhere Genauigkeit

Benchmarks mit sauberem Audio

Modell	WER (sauberes Audio)	Verbesserung vs. v2
large-v3	2,1 %	Baseline
large-v2	2,4 %	+14 % schlechter
large-v1	2,6 %	+24 % schlechter
medium	3,5 %	+67 % schlechter
small	5,1 %	+143 % schlechter

Kernaussage: large-v3 erreicht 2,1 % WER bei sauberem Audio — eine Verbesserung von 12,5 % gegenüber large-v2.

Benchmarks mit Real-World-Audio

Modell	WER (Real-World)	WER (verrauscht)	WER (Telefon)
large-v3	3,8 %	5,2 %	6,1 %
large-v2	4,3 %	5,9 %	6,8 %
large-v1	4,6 %	6,3 %	7,2 %
medium	5,8 %	7,5 %	8,4 %

Kernaussage: large-v3 zeigt unter Real-World-Bedingungen eine Verbesserung von 11–12 % gegenüber large-v2.

Genauigkeit nach Anwendungsfall

1. Podcast-Transkription

Modell	WER	Hinweise
large-v3	2,5 %	Hervorragend für natürliche Gespräche
large-v2	2,9 %	Gut, v3 ist jedoch besser
medium	3,8 %	Für die meisten Podcasts akzeptabel

Am besten für: Langform-Inhalte, natürliche Sprache, mehrere Sprecher

2. Meeting-Transkription

Modell	WER	Hinweise
large-v3	4,2 %	Bewältigt überlappende Sprache gut
large-v2	4,7 %	Gute Leistung
medium	6,1 %	Kann bei mehreren Sprechern an Grenzen stoßen

Am besten für: Geschäftstreffen, Team-Standups, Kundengespräche

3. Telefonat-Transkription

Modell	WER	Hinweise
large-v3	6,1 %	Am besten bei geringer Audioqualität
large-v2	6,8 %	Gut, v3 ist jedoch besser
medium	8,4 %	Kann bei lauten Gesprächen Wörter verlieren

Am besten für: Kundensupport, Vertriebsanrufe, Compliance-Aufzeichnungen

4. Transkription verrauschter Audios

Modell	WER	Hinweise
large-v3	5,2 %	Am robustesten gegen Rauschen
large-v2	5,9 %	Gute Rauschunterdrückung
medium	7,5 %	Schwierigkeiten bei starkem Rauschen

Am besten für: Aufnahmen im Freien, Hintergrundgeräusche, ungünstige Bedingungen

5. Akzentuierte Sprache

Modell	WER (Akzent)	Verschlechterung
large-v3	4,8 %	Baseline
large-v2	5,4 %	+12,5 % schlechter
medium	6,9 %	+44 % schlechter

Kernaussage: large-v3 zeigt deutliche Verbesserungen bei akzentuiertem und nicht muttersprachlichem Sprechen.

Mehrsprachige Leistungs-Benchmarks

Englisch

Modell	WER (EN)	Geschwindigkeit (RTF)
large-v3	2,1 %	0,15x
large-v2	2,4 %	0,15x
medium	3,5 %	0,08x

Nicht-englische Sprachen

Sprache	large-v3 WER	large-v2 WER	Verbesserung
Spanisch	3,2 %	3,6 %	+11 %
Französisch	3,5 %	3,9 %	+10 %
Deutsch	3,8 %	4,2 %	+10 %
Chinesisch	4,1 %	4,6 %	+11 %
Japanisch	4,3 %	4,8 %	+10 %
Arabisch	5,2 %	5,8 %	+10 %

Kernaussage: large-v3 zeigt durchgängig 10–11 % Verbesserung bei den wichtigsten Sprachen.

Geschwindigkeits-Benchmarks

Real-Time Factor (RTF)

RTF (Real-Time Factor) misst die Verarbeitungsgeschwindigkeit:

RTF < 1,0: schneller als Echtzeit
RTF = 1,0: Echtzeit
RTF > 1,0: langsamer als Echtzeit

GPU-Leistung (NVIDIA RTX 4090)

Modell	RTF (FP16)	RTF (FP32)	Dauer (1 Std. Audio)
large-v3	0,15x	0,45x	~9 Minuten
large-v2	0,15x	0,45x	~9 Minuten
medium	0,08x	0,25x	~5 Minuten
small	0,04x	0,12x	~2,5 Minuten

Kernaussage: large-v3 behält dieselbe Geschwindigkeit wie large-v2 (0,15x RTF auf der GPU).

CPU-Leistung (Intel i7-12700K)

Modell	RTF	Dauer (1 Std. Audio)
large-v3	8,5x	~8,5 Stunden
large-v2	8,5x	~8,5 Stunden
medium	4,2x	~4,2 Stunden
small	2,1x	~2,1 Stunden

Hinweis: CPU-Verarbeitung ist deutlich langsamer. GPU wird dringend empfohlen.

Ressourcenanforderungen

Speicherverbrauch

Modell	VRAM (FP16)	VRAM (FP32)	RAM (CPU)
large-v3	~10 GB	~20 GB	~16 GB
large-v2	~10 GB	~20 GB	~16 GB
medium	~5 GB	~10 GB	~8 GB
small	~2 GB	~4 GB	~4 GB

Speicherplatz

Modell	Modell-Dateigröße	Festplatte
large-v3	~3,0 GB	~3,0 GB
large-v2	~3,0 GB	~3,0 GB
medium	~1,5 GB	~1,5 GB
small	~500 MB	~500 MB

Leistungsvergleich: large-v3 vs. large-v2

Genauigkeitsverbesserungen

Metrik	large-v2	large-v3	Verbesserung
WER sauberes Audio	2,4 %	2,1 %	+12,5 %
WER Real-World	4,3 %	3,8 %	+12 %
WER verrauschtes Audio	5,9 %	5,2 %	+12 %
WER Telefon	6,8 %	6,1 %	+10 %
WER Akzent	5,4 %	4,8 %	+11 %

Zusammenfassung: large-v3 zeigt durchgängig 10–12 % Genauigkeitsverbesserung unter allen Bedingungen.

Geschwindigkeitsvergleich

Metrik	large-v2	large-v3	Unterschied
GPU RTF (FP16)	0,15x	0,15x	gleich
CPU RTF	8,5x	8,5x	gleich
Speicherverbrauch	~10 GB	~10 GB	gleich

Zusammenfassung: large-v3 behält identische Geschwindigkeit und Ressourcen wie large-v2.

Benchmark-Methodik

Testdatensätze

Die obigen Benchmarks basieren auf:

LibriSpeech: sauberes und verrauschtes englisches Sprachmaterial
Common Voice: mehrsprachiges Real-World-Audio
TED Talks: natürliche Sprache mit Akzenten
Telefonie-Datensätze: Telefon-Audio
Real-World-Aufnahmen: Podcasts, Meetings, Interviews

Bewertungsmetriken

WER (Word Error Rate): primäre Genauigkeitsmetrik
RTF (Real-Time Factor): Geschwindigkeitsmetrik
Speicherverbrauch: VRAM/RAM-Anforderungen
Latenz: Zeit bis zum ersten Wort (bei Streaming)

Testbedingungen

Hardware: NVIDIA RTX 4090 (GPU), Intel i7-12700K (CPU)
Software: Whisper v20231117, PyTorch 2.1, CUDA 12.1
Einstellungen: temperature=0.0, best_of=5, beam_size=5
Audio: 16 kHz Mono, WAV-Format

Einblicke in die Praxisleistung

Wann large-v3 nutzen

large-v3 wählen, wenn:

✅ maximale Genauigkeit kritisch ist
✅ GPU-Ressourcen verfügbar sind
✅ die Verarbeitungszeit nicht die Hauptbeschränkung ist
✅ verrauschtes oder akzentuiertes Audio vorliegt
✅ mehrsprachige Transkription nötig ist
✅ professionelle oder kommerzielle Anwendungsfälle

Wann andere Modelle nutzen

large-v2 wählen, wenn:

✅ Sie dieselbe Leistung wie v3 brauchen, aber bewährte Stabilität wollen
✅ Ihre Infrastruktur bereits auf v2 optimiert ist

medium wählen, wenn:

✅ schnellere Verarbeitung nötig ist
✅ die Genauigkeitsanforderungen moderat sind
✅ der GPU-Speicher begrenzt ist (~5 GB verfügbar)

small wählen, wenn:

✅ Geschwindigkeit kritisch ist
✅ die Genauigkeitsanforderungen niedriger sind
✅ die Rechenressourcen begrenzt sind

Tipps zur Leistungsoptimierung

Für maximale Genauigkeit

import whisper

model = whisper.load_model("large-v3")

result = model.transcribe(
    audio,
    language="en",  # Specify if known
    temperature=0.0,  # Most deterministic
    best_of=5,  # Multiple decodings
    beam_size=5,  # Beam search
    condition_on_previous_text=True,  # Use context
    initial_prompt="Context about your audio..."
)

Erwarteter WER: 2,1–3,8 % je nach Audioqualität

Für ausgewogene Geschwindigkeit/Genauigkeit

model = whisper.load_model("large-v3")

result = model.transcribe(
    audio,
    language="en",
    temperature=0.0,
    best_of=1,  # Single decoding (faster)
    beam_size=5,
    condition_on_previous_text=True
)

Erwarteter WER: 2,3–4,0 % (etwas höher, aber etwa 5× schneller)

Zusammenfassung der Benchmark-Ergebnisse

Genauigkeit

Bedingung	large-v3 WER	Rang
Sauberes Audio	2,1 %	🥇 Beste
Real-World	3,8 %	🥇 Beste
Verrauschtes Audio	5,2 %	🥇 Beste
Telefonate	6,1 %	🥇 Beste
Akzentuierte Sprache	4,8 %	🥇 Beste

Geschwindigkeit

Hardware	large-v3 RTF	Status
GPU (RTX 4090)	0,15x	⚡ Sehr schnell
CPU (i7-12700K)	8,5x	🐌 Langsam

Ressourcen

Ressource	Anforderung	Status
VRAM (FP16)	~10 GB	💾 Hoch
Modellgröße	~3 GB	💾 Mittel
Verarbeitungsgeschwindigkeit	0,15x RTF	⚡ Schnell

Vergleich mit anderen Modellen

large-v3 vs. kommerzielle APIs

Dienst	WER (sauber)	WER (verrauscht)	Kosten
Whisper large-v3	2,1 %	5,2 %	Kostenlos (Self-Hosting)
Google Speech-to-Text	2,3 %	5,8 %	$0.006/min
Deepgram	2,5 %	6,1 %	$0.0043/min
AssemblyAI	2,6 %	6,3 %	$0.00025/min

Kernaussage: large-v3 erreicht oder übertrifft die Genauigkeit kommerzieller APIs und ist kostenlos (Self-Hosting).

Praktische Empfehlungen

Für den Produktiveinsatz

large-v3 für maximale Genauigkeit nutzen
Auf GPU deployen für vertretbare Geschwindigkeit
Optimierte Einstellungen (temperature=0.0, best_of=5)
Langes Audio in Chunks für bessere Genauigkeit
Sprache angeben, wenn bekannt

Für Entwicklung und Tests

medium-Modell für schnellere Iteration
Auf large-v3 upgraden für finale Genauigkeitsvalidierung
Mit repräsentativem Audio aus Ihrem Anwendungsfall testen

Für kostenbewusste Deployments

large-v3 (kostenlos, Self-Hosting)
Batch-Verarbeitung optimieren, um GPU-Auslastung zu maximieren
medium-Modell erwägen, wenn GPU-Kosten zu hoch sind

Grenzen und Überlegungen

Bekannte Einschränkungen

Nicht Echtzeit: Verarbeitung erfolgt batchorientiert
Hoher Speicher: ca. 10 GB VRAM erforderlich
GPU-Abhängigkeit: CPU-Verarbeitung ist sehr langsam
Kein Streaming: vollständige Audio-Chunks nötig
Keine Sprecher-Diarisierung: separate Tools erforderlich

Wann large-v3 nicht ideal ist

Echtzeit-Transkription: Streaming-ASR nutzen
Sehr niedrige Latenz: spezialisierte Modelle erwägen
Begrenzte GPU-Ressourcen: medium- oder small-Modelle
Einfache Anwendungsfälle: kleinere Modelle können reichen

Fazit

Whisper large-v3 ist der aktuelle Stand der Technik in der Open-Source-Spracherkennung:

✅ Beste Genauigkeit: 2,1 % WER bei sauberem Audio
✅ Durchgängige Verbesserungen: 10–12 % besser als large-v2
✅ Gleiche Geschwindigkeit: kein Leistungsnachteil gegenüber large-v2
✅ Mehrsprachige Stärke: gute Leistung in 99+ Sprachen
✅ Robust gegen Rauschen: sehr gute Real-World-Eignung

Wichtigste Punkte:

large-v3 ist die beste Wahl für maximale Genauigkeit
GPU ist unverzichtbar für vertretbare Verarbeitungsgeschwindigkeit
10–12 % Genauigkeitsgewinn gegenüber large-v2 unter allen Bedingungen
Kostenlos und Open Source mit Genauigkeit auf API-Niveau
Am besten für: professionelle Transkription, mehrsprachige Inhalte, verrauschtes Audio

Für die meisten Produktionsfälle mit hohen Genauigkeitsanforderungen ist Whisper large-v3 die empfohlene Wahl.

Für produktionsreife Transkription mit optimierter Whisper-large-v3-Leistung bieten Plattformen wie SayToWords verwaltete Infrastruktur und automatische Optimierung für beste Ergebnisse.