Whisper Large v3 Turbo auf englischem YouTube-Audio — Benchmark vom 29. März 2026 (WER, CER, RTF)

Whisper Large v3 Turbo auf englischem YouTube-Audio — Benchmark vom 29. März 2026 (WER, CER, RTF)

2026-03-29Test
Eric King

Eric King

Author


Diese Notiz dokumentiert einen einzelnen Lauf mit fester Konfiguration auf englischem Audio von ungefähr 18 Minuten aus einem YouTube-Upload. Der Scorer meldet WER ≈ 67,6 % mit dominierenden Löschungen (6 449 vs 60 Substitutionen, 0 Einfügungen). Dieses Profil legt nahe, dass die Hypothesentranskription in der Abdeckung schlecht zur Referenz passt — oft zu sehen, wenn die Referenz die plattformseitige Untertitelspur ist und die ASR-Ausgabe eine andere Segmentierung oder Länge widerspiegelt — die Kennzahlen sollten daher diagnostisch gelesen werden, nicht als polierter „Genauigkeitswert“ für sich allein.
Video und Referenztext. Die Referenz-WebVTT (ref.vtt) ist der mit dem Quellvideo gelieferte Untertiteltext (als WebVTT exportiert). Die Hypothese (model.vtt) ist Whisper large-v3-turbo auf demselben zugrunde liegenden Audio. Die Metriken vergleichen diese Untertitel mit diesem ASR-Lauf — eine praktische Basislinie dafür, „wie nah kommt unsere Pipeline dem, was YouTube als Untertitel ausliefert“, kein Anspruch auf menschenverifizierte Ground Truth.

1. Warum dieser Benchmark wichtig ist

YouTube-ähnliche Sprache ist in realen Workflows allgegenwärtig: wechselnde Mikrofonqualität, Musikunterlagen, Schnitte und lange Monologe oder Dialoge. ASR mit tatsächlichen Plattform-Untertiteln als Referenz zu bewerten beantwortet eine konkrete Frage: Wenn wir unsere eigene Whisper-basierte Pipeline auf demselben Audio laufen lassen, wie weit weicht der Text von dem ab, was Zuschauer bereits als Untertitel sehen? Das ist nützlich für Untertitel-QA, Content-Recycling und Suchindexierung — Bereiche, in denen „gut genug“ vom Produkt abhängt, die Zahlen aber reproduzierbar sein müssen.

2. Testaufbau

Die Werte unten stammen aus other.yaml und result.json für diesen Fall (Verzeichnismodus, sodass YAML-Metadaten an die Scorer-Ausgabe angehängt sind).
FieldValue
SourceYouTube video (audio aligned to that upload)
Date (processing window)2026-03-29 (processtime-atcompleted-at in other.yaml)
LanguageEnglish
Whisper modellarge-v3-turbo
Audio duration (YAML label)17:39
Audio duration (scorer, from VTT)1059.88 s (≈ 17.7 minutes)
STT processing time175 s (sttProcessingTimeSeconds in result.json, from YAML timestamps)
RTF0.165 (from result.json)
Wandzeitintervall in YAML: 2026-03-29 16:04:372026-03-29 16:07:32 (konsistent mit 175 s Verarbeitungszeit).

3. Bewertungsmethodik

Referenz und Hypothese sind WebVTT-Dateien. Aus den Cues wird Text extrahiert, dann normalisiert (Groß-/Kleinschreibung, Interpunktion, leichte Bereinigung) vor dem Scoring.
Wortaligierung
Tokenfolgen werden mit einem Levenshtein-artigen dynamischen Programm aligniert; Rückverfolgung liefert Substitutionen (S), Löschungen (D) und Einfügungen (I) relativ zur Referenzlänge N.
[ \mathrm{WER} = \frac{S + D + I}{N}, \qquad \mathrm{Accuracy} = 1 - \mathrm{WER}. ]
Character Error Rate (CER)
Whitespace wird entfernt; die Zeichen-Editdistanz ist die Levenshtein-Distanz auf Zeichenebene.
[ \mathrm{CER} = \frac{\text{Character edit distance}}{\text{Reference character count (no spaces)}}. ]
Real-Time Factor (RTF)
[ \mathrm{RTF} = \frac{\text{STT processing time}}{\text{Audio duration}}. ]
RTF unter 1 bedeutet, dass in diesem Lauf schneller als in Echtzeit dekodiert wurde.

4. Modellüberblick

Whisper large-v3-turbo zielt auf starke Qualität mit verbessertem Durchsatz im Vergleich zu schwereren „large“-Varianten ab (das Verhalten hängt von Implementierung und Hardware ab). Es ist ein allgemeines mehrsprachiges ASR, geeignet für Entwurfstranskripte, Suche und Untertitelentwürfe, bei denen wörtliche Perfektion nicht vorausgesetzt wird. Dieser Benchmark nutzt eine Dekodierkonfiguration, die in other.yaml erfasst ist; es gibt keinen Sweep über Dekodieroptionen, VAD oder Nachbearbeitung.

5. Ergebnisse (aus result.json)

Exakte Metriken:
  • Referenz-Wortanzahl (N): 9627
  • Substitutionen (S): 60
  • Löschungen (D): 6449
  • Einfügungen (I): 0
  • WER: 0.6761192479484782
  • Genauigkeit: 0.3238807520515218
  • Referenz-Zeichenanzahl: 38334
  • Zeichen-Editdistanz: 25696
  • CER: 0.6703187770647467
  • Audiodauer (Sekunden): 1059.8809999999999
  • STT-Verarbeitungszeit (Sekunden): 175
  • RTF: 0.16511287587946197
  • Laufzeit des Eval-Skripts (Sekunden): 25.612
Zur Lesbarkeit gerundet
  • WER ≈ 67,6 %; Genauigkeit ≈ 32,4 %
  • CER ≈ 67,0 %
  • ~25,7k Zeichenedits auf ~38,3k Referenzzeichen
  • RTF ≈ 0,165× (etwa schneller als Echtzeit)

6. Fehlerbildanalyse

Einfügungen sind null und Löschungen überwiegen bei Weitem die Substitutionen (6449 vs 60). Das ist nicht das übliche Profil „verrauschtes ASR mit zusätzlichen Füllwörtern“; es weist auf große Abschnitte von Referenztext, die unter dieser Ausrichtung nicht mit der Hypothese gematcht werden — konsistent mit Längenabweichung, anderer Segmentierung oder Referenz, die mehr Inhalt umfasst als das ASR gehört hat (z. B. Untertiteldatei vs. Audiosegment). CER ≈ 67 % verstärkt, dass die Lücke breit ist, nicht nur ein paar Worttauschungen.
Für Produktteams: nicht so interpretieren, dass „Whisper 68 % der Wörter falsch gehört“ hat im umgangssprachlichen Sinn, bis dieselbe Audiofenster, dieselbe Sprache und vergleichbare Textnormalisierung zwischen Untertitel-Export und Modellausgabe bestätigt sind.

7. Zentrale Erkenntnisse

  • Geschwindigkeit: RTF ≈ 0,17 ist attraktiv für die Stapelverarbeitung langer Clips.
  • Genauigkeit: ~68 % WER ist nicht publikationsreif ohne Review, wenn treue Zitate nötig sind.
  • Fehlerform: Löschlastig, null EinfügungenPaarung und Abdeckung prüfen, bevor Modellknöpfe gedreht werden.
  • Szenario-Realismus: ~18 Minuten durchgehendes Englisch aus einer echten YouTube-Quelle ist repräsentativer als Spielzeugclips, aber weiterhin ein Video und eine Modelleinstellung.
  • Referenzwahl: Plattform-Untertitel zu nutzen verankert den Test an einer für Zuschauer sichtbaren Basislinie, die von einer menschlichen Neu-Transkription abweichen kann.

8. Bestes Modell für dieses Szenario

Im engen Rahmen „large-v3-turbo auf diesem Clip mit YouTube-Untertiteln als Referenz“ ist der Lauf eine dokumentierte Basislinie: er fixiert Durchsatz (RTF) und quantitative Abweichung (WER/CER) für spätere Vergleiche. Es ist kein Behauptung, dass dies das beste Modell für alle englischen YouTube-Inhalte ist.

9. Neutrales Fazit

Für interne Entwürfe, Themen-Tags oder grobe Suche kann niedriger RTF diesen Stack nutzbar machen, wenn Stakeholder Fehlerraten akzeptieren und kritische Passagen validieren.
Für wörtliches Zitieren, Compliance oder barrierefreie Untertitel von hoher Kritikalität bedeuten ~32 % Wortgenauigkeit und löschlastige Fehler, dass menschliche Prüfung oder Ausrichtungskorrekturen weiterhin Pflicht sind. Scorer nach jeder Änderung der Eingaben erneut ausführen; die Methodik bleibt vergleichbar.

Quellenmaterial

Ordnername des Falls {case-name} = 20260329 (Spiegel unter test-transcripts/ im Repo, wenn Sie Assets veröffentlichen).
  • Originalvideo (Audioquelle): https://www.youtube.com/watch?v=E73XCmLAFe8 — die Referenzuntertitel sind die mit diesem Video gelieferten Untertitel (exportiert als ref.vtt).
  • Referenztranskript (VTT): test-transcripts/{case-name}/ref.vtt
  • Modelltranskript (VTT): test-transcripts/{case-name}/model.vtt
  • Lauf-Metadaten: test-transcripts/{case-name}/other.yaml
  • Vorberechnete Bewertungsmetriken: test-transcripts/{case-name}/result.json
Das Scoring nutzt scripts/evaluate-vtt-metrics.js in diesem Repository. Bei langen Transkripten Node bei Bedarf mit erhöhtem Heap-Limit ausführen (z. B. NODE_OPTIONS=--max-old-space-size=8192).

Jetzt kostenlos testen

Testen Sie jetzt unseren KI‑basierten Dienst für Sprache, Audio und Video. Sie erhalten nicht nur hochpräzise Sprach‑zu‑Text‑Transkription, mehrsprachige Übersetzung und intelligente Sprechertrennung, sondern auch automatische Untertitelgenerierung für Videos, intelligente Bearbeitung von Audio‑ und Videoinhalten sowie synchronisierte Audio‑/Bild‑Analyse. Damit decken Sie alle Szenarien ab – von Meeting‑Protokollen über Short‑Video‑Produktion bis hin zur Podcast‑Erstellung. Starten Sie noch heute Ihre kostenlose Testphase!

Sound zu Text OnlineSound zu Text KostenlosSound zu Text KonverterSound zu Text MP3Sound zu Text WAVSound zu Text mit ZeitstempelSprache zu Text für MeetingsSound to Text Multi LanguageSound zu Text UntertitelWAV in Text konvertierenStimme zu TextStimme zu Text OnlineSprache zu TextMP3 in Text konvertierenSprachaufnahme zu TextOnline SpracheingabeStimme zu Text mit ZeitstempelnStimme zu Text in EchtzeitStimme zu Text für lange AudioStimme zu Text für VideoSprache zu Text für YouTubeSprache zu Text für VideobearbeitungSprache zu Text für UntertitelSprache zu Text für PodcastsSprache zu Text für InterviewsInterview-Audio zu TextSprache zu Text für AufnahmenSprache zu Text für MeetingsSprache zu Text für VorlesungenSprache zu Text für NotizenStimme zu Text MehrsprachigStimme zu Text PräziseStimme zu Text SchnellPremiere Pro Stimme zu Text AlternativeDaVinci Stimme zu Text AlternativeVEED Stimme zu Text AlternativeInVideo Stimme zu Text AlternativeOtter.ai Stimme zu Text AlternativeDescript Stimme zu Text AlternativeTrint Stimme zu Text AlternativeRev Stimme zu Text AlternativeSonix Stimme zu Text AlternativeHappy Scribe Stimme zu Text AlternativeZoom Stimme zu Text AlternativeGoogle Meet Stimme zu Text AlternativeMicrosoft Teams Stimme zu Text AlternativeFireflies.ai Stimme zu Text AlternativeFathom Stimme zu Text AlternativeFlexClip Stimme zu Text AlternativeKapwing Stimme zu Text AlternativeCanva Stimme zu Text AlternativeSprache-zu-Text für lange AudioKI Sprache zu TextKostenlose Sprache zu TextSprache zu Text ohne WerbungSprache zu Text für lautes AudioSprache zu Text mit ZeitUntertitel aus Audio generierenPodcast-Transkription OnlineKundengespräche TranskribierenTikTok Sprache zu TextTikTok Audio zu TextYouTube Sprache zu TextYouTube Audio zu TextSprachnotiz zu TextWhatsApp-Sprachnachricht zu TextTelegram-Sprachnachricht zu TextDiscord-Anruf-TranskriptionTwitch-Sprache zu TextSkype-Sprache zu TextMessenger-Sprache zu TextLINE-Sprachnachricht zu TextVlogs in Text transkribierenPredigt-Audio in Text konvertierenSprache in Schrift umwandelnAudio in Text übersetzenAudio-Notizen in Text umwandelnSpracheingabeSpracheingabe für BesprechungenSpracheingabe für YouTubeSprechen statt TippenFreihändiges TippenStimme zu WörternSprache zu WörternSprache zu Text OnlineOnline Transcription SoftwareSprache zu Text für BesprechungenSchnelle Sprache zu TextReal Time Speech to TextLive Transcription AppSprache zu Text für TikTokTon zu Text für TikTokSprechen zu WörternSprache zu TextTalk to Text FreeTalk to Text OnlineTalk to Text for YouTubeTalk to Text for SubtitlesTalk to Text for Content CreatorsTalk to Text for MeetingsAudio zu TippenTon zu TextSprach-SchreibwerkzeugSprach-SchreibwerkzeugSprachdiktatRechtliche Transkriptions-ToolMedizinisches Diktier-ToolJapanische Audio-TranskriptionKoreanische Meeting-TranskriptionMeeting-Transkriptions-ToolMeeting-Audio zu TextVorlesung-zu-Text-KonverterVorlesungs-Audio zu TextVideo-zu-Text-TranskriptionUntertitel-Generator für TikTokCall-Center-TranskriptionReels Audio zu Text ToolMP3 in Text transkribierenWAV-Datei in Text transkribierenCapCut Sprache zu TextCapCut Sprache zu TextVoice to Text in EnglishAudio zu Text EnglischVoice to Text in SpanishVoice to Text in FrenchAudio zu Text FranzösischVoice to Text in GermanAudio zu Text DeutschVoice to Text in JapaneseAudio zu Text JapanischVoice to Text in KoreanAudio zu Text KoreanischVoice to Text in PortugueseVoice to Text in ArabicVoice to Text in ChineseVoice to Text in HindiVoice to Text in RussianWeb Voice Typing ToolVoice Typing Website