Whisper Large v3 Turbo auf englischem YouTube-Audio — Benchmark vom 29. März 2026 (WER, CER, RTF)

Diese Notiz dokumentiert einen einzelnen Lauf mit fester Konfiguration auf englischem Audio von ungefähr 18 Minuten aus einem YouTube-Upload. Der Scorer meldet WER ≈ 67,6 % mit dominierenden Löschungen (6 449 vs 60 Substitutionen, 0 Einfügungen). Dieses Profil legt nahe, dass die Hypothesentranskription in der Abdeckung schlecht zur Referenz passt — oft zu sehen, wenn die Referenz die plattformseitige Untertitelspur ist und die ASR-Ausgabe eine andere Segmentierung oder Länge widerspiegelt — die Kennzahlen sollten daher diagnostisch gelesen werden, nicht als polierter „Genauigkeitswert“ für sich allein.

Video und Referenztext. Die Referenz-WebVTT (ref.vtt) ist der mit dem Quellvideo gelieferte Untertiteltext (als WebVTT exportiert). Die Hypothese (model.vtt) ist Whisper large-v3-turbo auf demselben zugrunde liegenden Audio. Die Metriken vergleichen diese Untertitel mit diesem ASR-Lauf — eine praktische Basislinie dafür, „wie nah kommt unsere Pipeline dem, was YouTube als Untertitel ausliefert“, kein Anspruch auf menschenverifizierte Ground Truth.

1. Warum dieser Benchmark wichtig ist

YouTube-ähnliche Sprache ist in realen Workflows allgegenwärtig: wechselnde Mikrofonqualität, Musikunterlagen, Schnitte und lange Monologe oder Dialoge. ASR mit tatsächlichen Plattform-Untertiteln als Referenz zu bewerten beantwortet eine konkrete Frage: Wenn wir unsere eigene Whisper-basierte Pipeline auf demselben Audio laufen lassen, wie weit weicht der Text von dem ab, was Zuschauer bereits als Untertitel sehen? Das ist nützlich für Untertitel-QA, Content-Recycling und Suchindexierung — Bereiche, in denen „gut genug“ vom Produkt abhängt, die Zahlen aber reproduzierbar sein müssen.

2. Testaufbau

Die Werte unten stammen aus other.yaml und result.json für diesen Fall (Verzeichnismodus, sodass YAML-Metadaten an die Scorer-Ausgabe angehängt sind).

Field	Value
Source	YouTube video (audio aligned to that upload)
Date (processing window)	2026-03-29 (`processtime-at` → `completed-at` in `other.yaml`)
Language	English
Whisper model	large-v3-turbo
Audio duration (YAML label)	17:39
Audio duration (scorer, from VTT)	1059.88 s (≈ 17.7 minutes)
STT processing time	175 s (`sttProcessingTimeSeconds` in `result.json`, from YAML timestamps)
RTF	0.165 (from `result.json`)

Wandzeitintervall in YAML: 2026-03-29 16:04:37 → 2026-03-29 16:07:32 (konsistent mit 175 s Verarbeitungszeit).

3. Bewertungsmethodik

Referenz und Hypothese sind WebVTT-Dateien. Aus den Cues wird Text extrahiert, dann normalisiert (Groß-/Kleinschreibung, Interpunktion, leichte Bereinigung) vor dem Scoring.

Wortaligierung

Tokenfolgen werden mit einem Levenshtein-artigen dynamischen Programm aligniert; Rückverfolgung liefert Substitutionen (S), Löschungen (D) und Einfügungen (I) relativ zur Referenzlänge N.

[ \mathrm{WER} = \frac{S + D + I}{N}, \qquad \mathrm{Accuracy} = 1 - \mathrm{WER}. ]

Character Error Rate (CER)

Whitespace wird entfernt; die Zeichen-Editdistanz ist die Levenshtein-Distanz auf Zeichenebene.

[ \mathrm{CER} = \frac{\text{Character edit distance}}{\text{Reference character count (no spaces)}}. ]

Real-Time Factor (RTF)

[ \mathrm{RTF} = \frac{\text{STT processing time}}{\text{Audio duration}}. ]

RTF unter 1 bedeutet, dass in diesem Lauf schneller als in Echtzeit dekodiert wurde.

4. Modellüberblick

Whisper large-v3-turbo zielt auf starke Qualität mit verbessertem Durchsatz im Vergleich zu schwereren „large“-Varianten ab (das Verhalten hängt von Implementierung und Hardware ab). Es ist ein allgemeines mehrsprachiges ASR, geeignet für Entwurfstranskripte, Suche und Untertitelentwürfe, bei denen wörtliche Perfektion nicht vorausgesetzt wird. Dieser Benchmark nutzt eine Dekodierkonfiguration, die in other.yaml erfasst ist; es gibt keinen Sweep über Dekodieroptionen, VAD oder Nachbearbeitung.

5. Ergebnisse (aus `result.json`)

Exakte Metriken:

Referenz-Wortanzahl (N): 9627
Substitutionen (S): 60
Löschungen (D): 6449
Einfügungen (I): 0
WER: 0.6761192479484782
Genauigkeit: 0.3238807520515218
Referenz-Zeichenanzahl: 38334
Zeichen-Editdistanz: 25696
CER: 0.6703187770647467
Audiodauer (Sekunden): 1059.8809999999999
STT-Verarbeitungszeit (Sekunden): 175
RTF: 0.16511287587946197
Laufzeit des Eval-Skripts (Sekunden): 25.612

Zur Lesbarkeit gerundet

WER ≈ 67,6 %; Genauigkeit ≈ 32,4 %
CER ≈ 67,0 %
~25,7k Zeichenedits auf ~38,3k Referenzzeichen
RTF ≈ 0,165× (etwa 6× schneller als Echtzeit)

6. Fehlerbildanalyse

Einfügungen sind null und Löschungen überwiegen bei Weitem die Substitutionen (6449 vs 60). Das ist nicht das übliche Profil „verrauschtes ASR mit zusätzlichen Füllwörtern“; es weist auf große Abschnitte von Referenztext, die unter dieser Ausrichtung nicht mit der Hypothese gematcht werden — konsistent mit Längenabweichung, anderer Segmentierung oder Referenz, die mehr Inhalt umfasst als das ASR gehört hat (z. B. Untertiteldatei vs. Audiosegment). CER ≈ 67 % verstärkt, dass die Lücke breit ist, nicht nur ein paar Worttauschungen.

Für Produktteams: nicht so interpretieren, dass „Whisper 68 % der Wörter falsch gehört“ hat im umgangssprachlichen Sinn, bis dieselbe Audiofenster, dieselbe Sprache und vergleichbare Textnormalisierung zwischen Untertitel-Export und Modellausgabe bestätigt sind.

7. Zentrale Erkenntnisse

Geschwindigkeit: RTF ≈ 0,17 ist attraktiv für die Stapelverarbeitung langer Clips.
Genauigkeit: ~68 % WER ist nicht publikationsreif ohne Review, wenn treue Zitate nötig sind.
Fehlerform: Löschlastig, null Einfügungen — Paarung und Abdeckung prüfen, bevor Modellknöpfe gedreht werden.
Szenario-Realismus: ~18 Minuten durchgehendes Englisch aus einer echten YouTube-Quelle ist repräsentativer als Spielzeugclips, aber weiterhin ein Video und eine Modelleinstellung.
Referenzwahl: Plattform-Untertitel zu nutzen verankert den Test an einer für Zuschauer sichtbaren Basislinie, die von einer menschlichen Neu-Transkription abweichen kann.

8. Bestes Modell für dieses Szenario

Im engen Rahmen „large-v3-turbo auf diesem Clip mit YouTube-Untertiteln als Referenz“ ist der Lauf eine dokumentierte Basislinie: er fixiert Durchsatz (RTF) und quantitative Abweichung (WER/CER) für spätere Vergleiche. Es ist kein Behauptung, dass dies das beste Modell für alle englischen YouTube-Inhalte ist.

9. Neutrales Fazit

Für interne Entwürfe, Themen-Tags oder grobe Suche kann niedriger RTF diesen Stack nutzbar machen, wenn Stakeholder Fehlerraten akzeptieren und kritische Passagen validieren.

Für wörtliches Zitieren, Compliance oder barrierefreie Untertitel von hoher Kritikalität bedeuten ~32 % Wortgenauigkeit und löschlastige Fehler, dass menschliche Prüfung oder Ausrichtungskorrekturen weiterhin Pflicht sind. Scorer nach jeder Änderung der Eingaben erneut ausführen; die Methodik bleibt vergleichbar.

Quellenmaterial

Ordnername des Falls {case-name} = 20260329 (Spiegel unter test-transcripts/ im Repo, wenn Sie Assets veröffentlichen).

Originalvideo (Audioquelle): https://www.youtube.com/watch?v=E73XCmLAFe8 — die Referenzuntertitel sind die mit diesem Video gelieferten Untertitel (exportiert als ref.vtt).
Referenztranskript (VTT): test-transcripts/{case-name}/ref.vtt
Modelltranskript (VTT): test-transcripts/{case-name}/model.vtt
Lauf-Metadaten: test-transcripts/{case-name}/other.yaml
Vorberechnete Bewertungsmetriken: test-transcripts/{case-name}/result.json

Das Scoring nutzt scripts/evaluate-vtt-metrics.js in diesem Repository. Bei langen Transkripten Node bei Bedarf mit erhöhtem Heap-Limit ausführen (z. B. NODE_OPTIONS=--max-old-space-size=8192).

Whisper Large v3 Turbo auf englischem YouTube-Audio — Benchmark vom 29. März 2026 (WER, CER, RTF)

1. Warum dieser Benchmark wichtig ist

2. Testaufbau

3. Bewertungsmethodik

4. Modellüberblick

5. Ergebnisse (aus `result.json`)

6. Fehlerbildanalyse

7. Zentrale Erkenntnisse

8. Bestes Modell für dieses Szenario

9. Neutrales Fazit

Quellenmaterial

Ähnliche Beiträge

Whisper Medium auf englischem YouTube-Audio — Benchmark vom 30.03.2026 (WER, CER, RTF)

Whisper Medium auf englischem YouTube-Audio — Benchmark vom 30.03.2026 (WER, CER, RTF)

Whisper Large v3 Turbo bei einem englischen Interview — Benchmark vom 28. März 2026 (WER, CER, RTF)

Jetzt kostenlos testen

Whisper Large v3 Turbo auf englischem YouTube-Audio — Benchmark vom 29. März 2026 (WER, CER, RTF)

1. Warum dieser Benchmark wichtig ist

2. Testaufbau

3. Bewertungsmethodik

4. Modellüberblick

5. Ergebnisse (aus result.json)

6. Fehlerbildanalyse

7. Zentrale Erkenntnisse

8. Bestes Modell für dieses Szenario

9. Neutrales Fazit

Quellenmaterial

Ähnliche Beiträge

Whisper Medium auf englischem YouTube-Audio — Benchmark vom 30.03.2026 (WER, CER, RTF)

Whisper Medium auf englischem YouTube-Audio — Benchmark vom 30.03.2026 (WER, CER, RTF)

Whisper Large v3 Turbo bei einem englischen Interview — Benchmark vom 28. März 2026 (WER, CER, RTF)

Jetzt kostenlos testen

5. Ergebnisse (aus `result.json`)