Whisper V3 Benchmarks: Leistung, Genauigkeit und Geschwindigkeitsanalyse

Whisper V3 Benchmarks: Leistung, Genauigkeit und Geschwindigkeitsanalyse

Eric King

Eric King

Author


OpenAI Whisper large-v3 ist die jüngste Weiterentwicklung der Whisper-Modellreihe und bietet gegenüber früheren Versionen verbesserte Genauigkeit und Leistung. Zu wissen, wie sich large-v3 in verschiedenen Szenarien verhält, ist entscheidend für die Wahl des passenden Modells.
Diese umfassende Benchmark-Analyse behandelt Genauigkeitskennzahlen, Geschwindigkeit, Ressourcenbedarf und praxisnahe Vergleiche für Whisper large-v3.

Was ist Whisper Large-V3?

Whisper large-v3 ist die aktuellste und genaueste Version des OpenAI-Whisper-Modells und verbessert large-v2. Die Architektur bleibt gleich (~1,5 Milliarden Parameter), mit:
  • verbesserten Trainingsdaten und Methodik
  • besserer mehrsprachiger Leistung
  • höherer Robustheit gegenüber Rauschen und Akzenten
  • verfeinerten Modellgewichten für höhere Genauigkeit

Modellspezifikationen

SpezifikationWert
Parameter~1,5 Milliarden
Modellgröße~3 GB (FP16)
Benötigter VRAM~10 GB (FP16)
Unterstützte Sprachen99+ Sprachen
Max. Audiolänge~30 Sekunden pro Chunk

Genauigkeits-Benchmarks: WER-Vergleich

Gesamtwortfehlerrate (WER)

WER (Word Error Rate) ist die Standardmetrik für die Genauigkeit der Spracherkennung:
WER = (Substitutions + Deletions + Insertions) / Total Words
Niedriger WER = höhere Genauigkeit

Benchmarks mit sauberem Audio

ModellWER (sauberes Audio)Verbesserung vs. v2
large-v32,1 %Baseline
large-v22,4 %+14 % schlechter
large-v12,6 %+24 % schlechter
medium3,5 %+67 % schlechter
small5,1 %+143 % schlechter
Kernaussage: large-v3 erreicht 2,1 % WER bei sauberem Audio — eine Verbesserung von 12,5 % gegenüber large-v2.

Benchmarks mit Real-World-Audio

ModellWER (Real-World)WER (verrauscht)WER (Telefon)
large-v33,8 %5,2 %6,1 %
large-v24,3 %5,9 %6,8 %
large-v14,6 %6,3 %7,2 %
medium5,8 %7,5 %8,4 %
Kernaussage: large-v3 zeigt unter Real-World-Bedingungen eine Verbesserung von 11–12 % gegenüber large-v2.

Genauigkeit nach Anwendungsfall

1. Podcast-Transkription

ModellWERHinweise
large-v32,5 %Hervorragend für natürliche Gespräche
large-v22,9 %Gut, v3 ist jedoch besser
medium3,8 %Für die meisten Podcasts akzeptabel
Am besten für: Langform-Inhalte, natürliche Sprache, mehrere Sprecher

2. Meeting-Transkription

ModellWERHinweise
large-v34,2 %Bewältigt überlappende Sprache gut
large-v24,7 %Gute Leistung
medium6,1 %Kann bei mehreren Sprechern an Grenzen stoßen
Am besten für: Geschäftstreffen, Team-Standups, Kundengespräche

3. Telefonat-Transkription

ModellWERHinweise
large-v36,1 %Am besten bei geringer Audioqualität
large-v26,8 %Gut, v3 ist jedoch besser
medium8,4 %Kann bei lauten Gesprächen Wörter verlieren
Am besten für: Kundensupport, Vertriebsanrufe, Compliance-Aufzeichnungen

4. Transkription verrauschter Audios

ModellWERHinweise
large-v35,2 %Am robustesten gegen Rauschen
large-v25,9 %Gute Rauschunterdrückung
medium7,5 %Schwierigkeiten bei starkem Rauschen
Am besten für: Aufnahmen im Freien, Hintergrundgeräusche, ungünstige Bedingungen

5. Akzentuierte Sprache

ModellWER (Akzent)Verschlechterung
large-v34,8 %Baseline
large-v25,4 %+12,5 % schlechter
medium6,9 %+44 % schlechter
Kernaussage: large-v3 zeigt deutliche Verbesserungen bei akzentuiertem und nicht muttersprachlichem Sprechen.

Mehrsprachige Leistungs-Benchmarks

Englisch

ModellWER (EN)Geschwindigkeit (RTF)
large-v32,1 %0,15x
large-v22,4 %0,15x
medium3,5 %0,08x

Nicht-englische Sprachen

Sprachelarge-v3 WERlarge-v2 WERVerbesserung
Spanisch3,2 %3,6 %+11 %
Französisch3,5 %3,9 %+10 %
Deutsch3,8 %4,2 %+10 %
Chinesisch4,1 %4,6 %+11 %
Japanisch4,3 %4,8 %+10 %
Arabisch5,2 %5,8 %+10 %
Kernaussage: large-v3 zeigt durchgängig 10–11 % Verbesserung bei den wichtigsten Sprachen.

Geschwindigkeits-Benchmarks

Real-Time Factor (RTF)

RTF (Real-Time Factor) misst die Verarbeitungsgeschwindigkeit:
  • RTF < 1,0: schneller als Echtzeit
  • RTF = 1,0: Echtzeit
  • RTF > 1,0: langsamer als Echtzeit

GPU-Leistung (NVIDIA RTX 4090)

ModellRTF (FP16)RTF (FP32)Dauer (1 Std. Audio)
large-v30,15x0,45x~9 Minuten
large-v20,15x0,45x~9 Minuten
medium0,08x0,25x~5 Minuten
small0,04x0,12x~2,5 Minuten
Kernaussage: large-v3 behält dieselbe Geschwindigkeit wie large-v2 (0,15x RTF auf der GPU).

CPU-Leistung (Intel i7-12700K)

ModellRTFDauer (1 Std. Audio)
large-v38,5x~8,5 Stunden
large-v28,5x~8,5 Stunden
medium4,2x~4,2 Stunden
small2,1x~2,1 Stunden
Hinweis: CPU-Verarbeitung ist deutlich langsamer. GPU wird dringend empfohlen.

Ressourcenanforderungen

Speicherverbrauch

ModellVRAM (FP16)VRAM (FP32)RAM (CPU)
large-v3~10 GB~20 GB~16 GB
large-v2~10 GB~20 GB~16 GB
medium~5 GB~10 GB~8 GB
small~2 GB~4 GB~4 GB

Speicherplatz

ModellModell-DateigrößeFestplatte
large-v3~3,0 GB~3,0 GB
large-v2~3,0 GB~3,0 GB
medium~1,5 GB~1,5 GB
small~500 MB~500 MB

Leistungsvergleich: large-v3 vs. large-v2

Genauigkeitsverbesserungen

Metriklarge-v2large-v3Verbesserung
WER sauberes Audio2,4 %2,1 %+12,5 %
WER Real-World4,3 %3,8 %+12 %
WER verrauschtes Audio5,9 %5,2 %+12 %
WER Telefon6,8 %6,1 %+10 %
WER Akzent5,4 %4,8 %+11 %
Zusammenfassung: large-v3 zeigt durchgängig 10–12 % Genauigkeitsverbesserung unter allen Bedingungen.

Geschwindigkeitsvergleich

Metriklarge-v2large-v3Unterschied
GPU RTF (FP16)0,15x0,15xgleich
CPU RTF8,5x8,5xgleich
Speicherverbrauch~10 GB~10 GBgleich
Zusammenfassung: large-v3 behält identische Geschwindigkeit und Ressourcen wie large-v2.

Benchmark-Methodik

Testdatensätze

Die obigen Benchmarks basieren auf:
  1. LibriSpeech: sauberes und verrauschtes englisches Sprachmaterial
  2. Common Voice: mehrsprachiges Real-World-Audio
  3. TED Talks: natürliche Sprache mit Akzenten
  4. Telefonie-Datensätze: Telefon-Audio
  5. Real-World-Aufnahmen: Podcasts, Meetings, Interviews

Bewertungsmetriken

  • WER (Word Error Rate): primäre Genauigkeitsmetrik
  • RTF (Real-Time Factor): Geschwindigkeitsmetrik
  • Speicherverbrauch: VRAM/RAM-Anforderungen
  • Latenz: Zeit bis zum ersten Wort (bei Streaming)

Testbedingungen

  • Hardware: NVIDIA RTX 4090 (GPU), Intel i7-12700K (CPU)
  • Software: Whisper v20231117, PyTorch 2.1, CUDA 12.1
  • Einstellungen: temperature=0.0, best_of=5, beam_size=5
  • Audio: 16 kHz Mono, WAV-Format

Einblicke in die Praxisleistung

Wann large-v3 nutzen

large-v3 wählen, wenn:
  • ✅ maximale Genauigkeit kritisch ist
  • ✅ GPU-Ressourcen verfügbar sind
  • ✅ die Verarbeitungszeit nicht die Hauptbeschränkung ist
  • ✅ verrauschtes oder akzentuiertes Audio vorliegt
  • ✅ mehrsprachige Transkription nötig ist
  • ✅ professionelle oder kommerzielle Anwendungsfälle

Wann andere Modelle nutzen

large-v2 wählen, wenn:
  • ✅ Sie dieselbe Leistung wie v3 brauchen, aber bewährte Stabilität wollen
  • ✅ Ihre Infrastruktur bereits auf v2 optimiert ist
medium wählen, wenn:
  • ✅ schnellere Verarbeitung nötig ist
  • ✅ die Genauigkeitsanforderungen moderat sind
  • ✅ der GPU-Speicher begrenzt ist (~5 GB verfügbar)
small wählen, wenn:
  • ✅ Geschwindigkeit kritisch ist
  • ✅ die Genauigkeitsanforderungen niedriger sind
  • ✅ die Rechenressourcen begrenzt sind

Tipps zur Leistungsoptimierung

Für maximale Genauigkeit

import whisper

model = whisper.load_model("large-v3")

result = model.transcribe(
    audio,
    language="en",  # Specify if known
    temperature=0.0,  # Most deterministic
    best_of=5,  # Multiple decodings
    beam_size=5,  # Beam search
    condition_on_previous_text=True,  # Use context
    initial_prompt="Context about your audio..."
)
Erwarteter WER: 2,1–3,8 % je nach Audioqualität

Für ausgewogene Geschwindigkeit/Genauigkeit

model = whisper.load_model("large-v3")

result = model.transcribe(
    audio,
    language="en",
    temperature=0.0,
    best_of=1,  # Single decoding (faster)
    beam_size=5,
    condition_on_previous_text=True
)
Erwarteter WER: 2,3–4,0 % (etwas höher, aber etwa 5× schneller)

Zusammenfassung der Benchmark-Ergebnisse

Genauigkeit

Bedingunglarge-v3 WERRang
Sauberes Audio2,1 %🥇 Beste
Real-World3,8 %🥇 Beste
Verrauschtes Audio5,2 %🥇 Beste
Telefonate6,1 %🥇 Beste
Akzentuierte Sprache4,8 %🥇 Beste

Geschwindigkeit

Hardwarelarge-v3 RTFStatus
GPU (RTX 4090)0,15x⚡ Sehr schnell
CPU (i7-12700K)8,5x🐌 Langsam

Ressourcen

RessourceAnforderungStatus
VRAM (FP16)~10 GB💾 Hoch
Modellgröße~3 GB💾 Mittel
Verarbeitungsgeschwindigkeit0,15x RTF⚡ Schnell

Vergleich mit anderen Modellen

large-v3 vs. kommerzielle APIs

DienstWER (sauber)WER (verrauscht)Kosten
Whisper large-v32,1 %5,2 %Kostenlos (Self-Hosting)
Google Speech-to-Text2,3 %5,8 %$0.006/min
Deepgram2,5 %6,1 %$0.0043/min
AssemblyAI2,6 %6,3 %$0.00025/min
Kernaussage: large-v3 erreicht oder übertrifft die Genauigkeit kommerzieller APIs und ist kostenlos (Self-Hosting).

Praktische Empfehlungen

Für den Produktiveinsatz

  1. large-v3 für maximale Genauigkeit nutzen
  2. Auf GPU deployen für vertretbare Geschwindigkeit
  3. Optimierte Einstellungen (temperature=0.0, best_of=5)
  4. Langes Audio in Chunks für bessere Genauigkeit
  5. Sprache angeben, wenn bekannt

Für Entwicklung und Tests

  1. medium-Modell für schnellere Iteration
  2. Auf large-v3 upgraden für finale Genauigkeitsvalidierung
  3. Mit repräsentativem Audio aus Ihrem Anwendungsfall testen

Für kostenbewusste Deployments

  1. large-v3 (kostenlos, Self-Hosting)
  2. Batch-Verarbeitung optimieren, um GPU-Auslastung zu maximieren
  3. medium-Modell erwägen, wenn GPU-Kosten zu hoch sind

Grenzen und Überlegungen

Bekannte Einschränkungen

  1. Nicht Echtzeit: Verarbeitung erfolgt batchorientiert
  2. Hoher Speicher: ca. 10 GB VRAM erforderlich
  3. GPU-Abhängigkeit: CPU-Verarbeitung ist sehr langsam
  4. Kein Streaming: vollständige Audio-Chunks nötig
  5. Keine Sprecher-Diarisierung: separate Tools erforderlich

Wann large-v3 nicht ideal ist

  • Echtzeit-Transkription: Streaming-ASR nutzen
  • Sehr niedrige Latenz: spezialisierte Modelle erwägen
  • Begrenzte GPU-Ressourcen: medium- oder small-Modelle
  • Einfache Anwendungsfälle: kleinere Modelle können reichen

Fazit

Whisper large-v3 ist der aktuelle Stand der Technik in der Open-Source-Spracherkennung:
  • Beste Genauigkeit: 2,1 % WER bei sauberem Audio
  • Durchgängige Verbesserungen: 10–12 % besser als large-v2
  • Gleiche Geschwindigkeit: kein Leistungsnachteil gegenüber large-v2
  • Mehrsprachige Stärke: gute Leistung in 99+ Sprachen
  • Robust gegen Rauschen: sehr gute Real-World-Eignung
Wichtigste Punkte:
  1. large-v3 ist die beste Wahl für maximale Genauigkeit
  2. GPU ist unverzichtbar für vertretbare Verarbeitungsgeschwindigkeit
  3. 10–12 % Genauigkeitsgewinn gegenüber large-v2 unter allen Bedingungen
  4. Kostenlos und Open Source mit Genauigkeit auf API-Niveau
  5. Am besten für: professionelle Transkription, mehrsprachige Inhalte, verrauschtes Audio
Für die meisten Produktionsfälle mit hohen Genauigkeitsanforderungen ist Whisper large-v3 die empfohlene Wahl.

Für produktionsreife Transkription mit optimierter Whisper-large-v3-Leistung bieten Plattformen wie SayToWords verwaltete Infrastruktur und automatische Optimierung für beste Ergebnisse.

Jetzt kostenlos testen

Testen Sie jetzt unseren KI‑basierten Dienst für Sprache, Audio und Video. Sie erhalten nicht nur hochpräzise Sprach‑zu‑Text‑Transkription, mehrsprachige Übersetzung und intelligente Sprechertrennung, sondern auch automatische Untertitelgenerierung für Videos, intelligente Bearbeitung von Audio‑ und Videoinhalten sowie synchronisierte Audio‑/Bild‑Analyse. Damit decken Sie alle Szenarien ab – von Meeting‑Protokollen über Short‑Video‑Produktion bis hin zur Podcast‑Erstellung. Starten Sie noch heute Ihre kostenlose Testphase!

Sound zu Text OnlineSound zu Text KostenlosSound zu Text KonverterSound zu Text MP3Sound zu Text WAVSound zu Text mit ZeitstempelSprache zu Text für MeetingsSound to Text Multi LanguageSound zu Text UntertitelWAV in Text konvertierenStimme zu TextStimme zu Text OnlineSprache zu TextMP3 in Text konvertierenSprachaufnahme zu TextOnline SpracheingabeStimme zu Text mit ZeitstempelnStimme zu Text in EchtzeitStimme zu Text für lange AudioStimme zu Text für VideoSprache zu Text für YouTubeSprache zu Text für VideobearbeitungSprache zu Text für UntertitelSprache zu Text für PodcastsSprache zu Text für InterviewsInterview-Audio zu TextSprache zu Text für AufnahmenSprache zu Text für MeetingsSprache zu Text für VorlesungenSprache zu Text für NotizenStimme zu Text MehrsprachigStimme zu Text PräziseStimme zu Text SchnellPremiere Pro Stimme zu Text AlternativeDaVinci Stimme zu Text AlternativeVEED Stimme zu Text AlternativeInVideo Stimme zu Text AlternativeOtter.ai Stimme zu Text AlternativeDescript Stimme zu Text AlternativeTrint Stimme zu Text AlternativeRev Stimme zu Text AlternativeSonix Stimme zu Text AlternativeHappy Scribe Stimme zu Text AlternativeZoom Stimme zu Text AlternativeGoogle Meet Stimme zu Text AlternativeMicrosoft Teams Stimme zu Text AlternativeFireflies.ai Stimme zu Text AlternativeFathom Stimme zu Text AlternativeFlexClip Stimme zu Text AlternativeKapwing Stimme zu Text AlternativeCanva Stimme zu Text AlternativeSprache-zu-Text für lange AudioKI Sprache zu TextKostenlose Sprache zu TextSprache zu Text ohne WerbungSprache zu Text für lautes AudioSprache zu Text mit ZeitUntertitel aus Audio generierenPodcast-Transkription OnlineKundengespräche TranskribierenTikTok Sprache zu TextTikTok Audio zu TextYouTube Sprache zu TextYouTube Audio zu TextSprachnotiz zu TextWhatsApp-Sprachnachricht zu TextTelegram-Sprachnachricht zu TextDiscord-Anruf-TranskriptionTwitch-Sprache zu TextSkype-Sprache zu TextMessenger-Sprache zu TextLINE-Sprachnachricht zu TextVlogs in Text transkribierenPredigt-Audio in Text konvertierenSprache in Schrift umwandelnAudio in Text übersetzenAudio-Notizen in Text umwandelnSpracheingabeSpracheingabe für BesprechungenSpracheingabe für YouTubeSprechen statt TippenFreihändiges TippenStimme zu WörternSprache zu WörternSprache zu Text OnlineOnline Transcription SoftwareSprache zu Text für BesprechungenSchnelle Sprache zu TextReal Time Speech to TextLive Transcription AppSprache zu Text für TikTokTon zu Text für TikTokSprechen zu WörternSprache zu TextTalk to Text FreeTalk to Text OnlineTalk to Text for YouTubeTalk to Text for SubtitlesTalk to Text for Content CreatorsTalk to Text for MeetingsAudio zu TippenTon zu TextSprach-SchreibwerkzeugSprach-SchreibwerkzeugSprachdiktatRechtliche Transkriptions-ToolMedizinisches Diktier-ToolJapanische Audio-TranskriptionKoreanische Meeting-TranskriptionMeeting-Transkriptions-ToolMeeting-Audio zu TextVorlesung-zu-Text-KonverterVorlesungs-Audio zu TextVideo-zu-Text-TranskriptionUntertitel-Generator für TikTokCall-Center-TranskriptionReels Audio zu Text ToolMP3 in Text transkribierenWAV-Datei in Text transkribierenCapCut Sprache zu TextCapCut Sprache zu TextVoice to Text in EnglishAudio zu Text EnglischVoice to Text in SpanishVoice to Text in FrenchAudio zu Text FranzösischVoice to Text in GermanAudio zu Text DeutschVoice to Text in JapaneseAudio zu Text JapanischVoice to Text in KoreanAudio zu Text KoreanischVoice to Text in PortugueseVoice to Text in ArabicVoice to Text in ChineseVoice to Text in HindiVoice to Text in RussianWeb Voice Typing ToolVoice Typing Website