
Whisper Large v3 Turbo auf englischem YouTube-Audio — Benchmark vom 29. März 2026 (WER, CER, RTF)
2026-03-29Test
Eric King
Author
Diese Notiz dokumentiert einen einzelnen Lauf mit fester Konfiguration auf englischem Audio von ungefähr 18 Minuten aus einem YouTube-Upload. Der Scorer meldet WER ≈ 67,6 % mit dominierenden Löschungen (6 449 vs 60 Substitutionen, 0 Einfügungen). Dieses Profil legt nahe, dass die Hypothesentranskription in der Abdeckung schlecht zur Referenz passt — oft zu sehen, wenn die Referenz die plattformseitige Untertitelspur ist und die ASR-Ausgabe eine andere Segmentierung oder Länge widerspiegelt — die Kennzahlen sollten daher diagnostisch gelesen werden, nicht als polierter „Genauigkeitswert“ für sich allein.
Video und Referenztext. Die Referenz-WebVTT (
ref.vtt) ist der mit dem Quellvideo gelieferte Untertiteltext (als WebVTT exportiert). Die Hypothese (model.vtt) ist Whisper large-v3-turbo auf demselben zugrunde liegenden Audio. Die Metriken vergleichen diese Untertitel mit diesem ASR-Lauf — eine praktische Basislinie dafür, „wie nah kommt unsere Pipeline dem, was YouTube als Untertitel ausliefert“, kein Anspruch auf menschenverifizierte Ground Truth.1. Warum dieser Benchmark wichtig ist
YouTube-ähnliche Sprache ist in realen Workflows allgegenwärtig: wechselnde Mikrofonqualität, Musikunterlagen, Schnitte und lange Monologe oder Dialoge. ASR mit tatsächlichen Plattform-Untertiteln als Referenz zu bewerten beantwortet eine konkrete Frage: Wenn wir unsere eigene Whisper-basierte Pipeline auf demselben Audio laufen lassen, wie weit weicht der Text von dem ab, was Zuschauer bereits als Untertitel sehen? Das ist nützlich für Untertitel-QA, Content-Recycling und Suchindexierung — Bereiche, in denen „gut genug“ vom Produkt abhängt, die Zahlen aber reproduzierbar sein müssen.
2. Testaufbau
Die Werte unten stammen aus
other.yaml und result.json für diesen Fall (Verzeichnismodus, sodass YAML-Metadaten an die Scorer-Ausgabe angehängt sind).| Field | Value |
|---|---|
| Source | YouTube video (audio aligned to that upload) |
| Date (processing window) | 2026-03-29 (processtime-at → completed-at in other.yaml) |
| Language | English |
| Whisper model | large-v3-turbo |
| Audio duration (YAML label) | 17:39 |
| Audio duration (scorer, from VTT) | 1059.88 s (≈ 17.7 minutes) |
| STT processing time | 175 s (sttProcessingTimeSeconds in result.json, from YAML timestamps) |
| RTF | 0.165 (from result.json) |
Wandzeitintervall in YAML: 2026-03-29 16:04:37 → 2026-03-29 16:07:32 (konsistent mit 175 s Verarbeitungszeit).
3. Bewertungsmethodik
Referenz und Hypothese sind WebVTT-Dateien. Aus den Cues wird Text extrahiert, dann normalisiert (Groß-/Kleinschreibung, Interpunktion, leichte Bereinigung) vor dem Scoring.
Wortaligierung
Tokenfolgen werden mit einem Levenshtein-artigen dynamischen Programm aligniert; Rückverfolgung liefert Substitutionen (S), Löschungen (D) und Einfügungen (I) relativ zur Referenzlänge N.
[
\mathrm{WER} = \frac{S + D + I}{N}, \qquad \mathrm{Accuracy} = 1 - \mathrm{WER}.
]
Character Error Rate (CER)
Whitespace wird entfernt; die Zeichen-Editdistanz ist die Levenshtein-Distanz auf Zeichenebene.
[
\mathrm{CER} = \frac{\text{Character edit distance}}{\text{Reference character count (no spaces)}}.
]
Real-Time Factor (RTF)
[
\mathrm{RTF} = \frac{\text{STT processing time}}{\text{Audio duration}}.
]
RTF unter 1 bedeutet, dass in diesem Lauf schneller als in Echtzeit dekodiert wurde.
4. Modellüberblick
Whisper large-v3-turbo zielt auf starke Qualität mit verbessertem Durchsatz im Vergleich zu schwereren „large“-Varianten ab (das Verhalten hängt von Implementierung und Hardware ab). Es ist ein allgemeines mehrsprachiges ASR, geeignet für Entwurfstranskripte, Suche und Untertitelentwürfe, bei denen wörtliche Perfektion nicht vorausgesetzt wird. Dieser Benchmark nutzt eine Dekodierkonfiguration, die in
other.yaml erfasst ist; es gibt keinen Sweep über Dekodieroptionen, VAD oder Nachbearbeitung.5. Ergebnisse (aus result.json)
Exakte Metriken:
- Referenz-Wortanzahl (N): 9627
- Substitutionen (S): 60
- Löschungen (D): 6449
- Einfügungen (I): 0
- WER: 0.6761192479484782
- Genauigkeit: 0.3238807520515218
- Referenz-Zeichenanzahl: 38334
- Zeichen-Editdistanz: 25696
- CER: 0.6703187770647467
- Audiodauer (Sekunden): 1059.8809999999999
- STT-Verarbeitungszeit (Sekunden): 175
- RTF: 0.16511287587946197
- Laufzeit des Eval-Skripts (Sekunden): 25.612
Zur Lesbarkeit gerundet
- WER ≈ 67,6 %; Genauigkeit ≈ 32,4 %
- CER ≈ 67,0 %
- ~25,7k Zeichenedits auf ~38,3k Referenzzeichen
- RTF ≈ 0,165× (etwa 6× schneller als Echtzeit)
6. Fehlerbildanalyse
Einfügungen sind null und Löschungen überwiegen bei Weitem die Substitutionen (6449 vs 60). Das ist nicht das übliche Profil „verrauschtes ASR mit zusätzlichen Füllwörtern“; es weist auf große Abschnitte von Referenztext, die unter dieser Ausrichtung nicht mit der Hypothese gematcht werden — konsistent mit Längenabweichung, anderer Segmentierung oder Referenz, die mehr Inhalt umfasst als das ASR gehört hat (z. B. Untertiteldatei vs. Audiosegment). CER ≈ 67 % verstärkt, dass die Lücke breit ist, nicht nur ein paar Worttauschungen.
Für Produktteams: nicht so interpretieren, dass „Whisper 68 % der Wörter falsch gehört“ hat im umgangssprachlichen Sinn, bis dieselbe Audiofenster, dieselbe Sprache und vergleichbare Textnormalisierung zwischen Untertitel-Export und Modellausgabe bestätigt sind.
7. Zentrale Erkenntnisse
- Geschwindigkeit: RTF ≈ 0,17 ist attraktiv für die Stapelverarbeitung langer Clips.
- Genauigkeit: ~68 % WER ist nicht publikationsreif ohne Review, wenn treue Zitate nötig sind.
- Fehlerform: Löschlastig, null Einfügungen — Paarung und Abdeckung prüfen, bevor Modellknöpfe gedreht werden.
- Szenario-Realismus: ~18 Minuten durchgehendes Englisch aus einer echten YouTube-Quelle ist repräsentativer als Spielzeugclips, aber weiterhin ein Video und eine Modelleinstellung.
- Referenzwahl: Plattform-Untertitel zu nutzen verankert den Test an einer für Zuschauer sichtbaren Basislinie, die von einer menschlichen Neu-Transkription abweichen kann.
8. Bestes Modell für dieses Szenario
Im engen Rahmen „large-v3-turbo auf diesem Clip mit YouTube-Untertiteln als Referenz“ ist der Lauf eine dokumentierte Basislinie: er fixiert Durchsatz (RTF) und quantitative Abweichung (WER/CER) für spätere Vergleiche. Es ist kein Behauptung, dass dies das beste Modell für alle englischen YouTube-Inhalte ist.
9. Neutrales Fazit
Für interne Entwürfe, Themen-Tags oder grobe Suche kann niedriger RTF diesen Stack nutzbar machen, wenn Stakeholder Fehlerraten akzeptieren und kritische Passagen validieren.
Für wörtliches Zitieren, Compliance oder barrierefreie Untertitel von hoher Kritikalität bedeuten ~32 % Wortgenauigkeit und löschlastige Fehler, dass menschliche Prüfung oder Ausrichtungskorrekturen weiterhin Pflicht sind. Scorer nach jeder Änderung der Eingaben erneut ausführen; die Methodik bleibt vergleichbar.
Quellenmaterial
Ordnername des Falls
{case-name} = 20260329 (Spiegel unter test-transcripts/ im Repo, wenn Sie Assets veröffentlichen).- Originalvideo (Audioquelle): https://www.youtube.com/watch?v=E73XCmLAFe8 — die Referenzuntertitel sind die mit diesem Video gelieferten Untertitel (exportiert als
ref.vtt). - Referenztranskript (VTT):
test-transcripts/{case-name}/ref.vtt - Modelltranskript (VTT):
test-transcripts/{case-name}/model.vtt - Lauf-Metadaten:
test-transcripts/{case-name}/other.yaml - Vorberechnete Bewertungsmetriken:
test-transcripts/{case-name}/result.json
Das Scoring nutzt
scripts/evaluate-vtt-metrics.js in diesem Repository. Bei langen Transkripten Node bei Bedarf mit erhöhtem Heap-Limit ausführen (z. B. NODE_OPTIONS=--max-old-space-size=8192).