Whisper Large v3 Turbo bei einem englischen Interview — Benchmark vom 28. März 2026 (WER, CER, RTF)

Diese Notiz dokumentiert einen einzelnen Lauf mit fester Konfiguration auf englischem Interview-Stil-Audio (ca. 8,5 Minuten). Der Scorer meldet eine Wortfehlerrate von etwa 69 %, wobei Löschungen den Fehleranteil dominieren (2192 Löschungen vs 188 Substitutionen, 0 Einfügungen). Dieses Muster bedeutet meist, dass der Hypothesentext weit weniger der Referenz abdeckt als ein typisches „verrauschtes, aber vollständiges“ Transkript — die Zahlen sollten daher diagnostisch gelesen werden, zusammen mit einer manuellen Prüfung, ob Modellausgabe und Referenz dieselbe Aufnahme und Segmentierung beschreiben.

Video und Referenztext. Das getestete Audio stammt aus einem Quellvideo (Link unten). Die Referenz-WebVTT (ref.vtt) ist die mit diesem Video gelieferte Untertitelspur — als WebVTT von der Plattform exportiert oder gespeichert — kein unabhängig erstelltes „Gold“-Transkript. Die Hypothese (model.vtt) ist Whisper large-v3-turbo-ASR auf demselben Audio. Die Metriken verglehen damit plattformbereitgestellte Untertitel mit diesem ASR-Lauf; das ist eine praktische Basislinie, aber nicht dasselbe wie eine Bewertung gegen handkuratierte Forschungstranskripte.

1. Warum dieser Benchmark wichtig ist

Interview-Audio fordert ASR mit überlappender Sprache, ungleichmäßigem Tempo, Namen und Zahlen — Bedingungen, die in redaktioneller und Forschungsarbeit häufig sind. Modell-ID, Sprache, Dauer, Zeitstempel und Standardmetriken zu veröffentlichen, macht den Lauf vergleichbar mit Wiederholungen oder anderen Pipelines; Ziel ist Transparenz, kein Produktversprechen.

2. Testaufbau

Sofern nicht anders angegeben, stammen die Werte unten aus other.yaml und result.json für diesen Fall.

Feld	Wert
Datum (Verarbeitungsfenster)	2026-03-28 (siehe `processtime-at` / `completed-at` in `other.yaml`)
Szenario	Englischer Interview-Stil (Sprach-Tag: English)
Whisper-Modell	large-v3-turbo (`whisper-model` in `other.yaml`)
Audiodauer (YAML)	08:25 (8 min 25 s Wandzeit-Label)
Audiodauer (Scorer)	506.88 s (aus Referenz-VTT-Cue-Spanne in `result.json`)
Wandzeit-Verarbeitungsintervall	`processtime-at`: 2026-03-28 09:56:40.204 → `completed-at`: 2026-03-28 09:57:57.000
Abgeleitete STT-Verarbeitungszeit	≈ 76.8 s (Differenz der beiden Zeitstempel oben; nicht in `result.json` gespeichert, weil dieser Lauf expliziten VTT-Modus ohne an den Scorer angehängtes YAML nutzte)
Abgeleiteter RTF	≈ 0.151 (Verarbeitungszeit ÷ 506.88 s Audiodauer)

Hinweis: result.json enthält für diesen expliziten Zwei-Dateien-Lauf "yamlMeta": null; RTF dort ist null. Verarbeitungszeit und RTF in diesem Artikel sind aus other.yaml neu berechnet für konsistente Berichterstattung mit dem Methodikabschnitt.

3. Bewertungsmethodik

Referenz und Hypothese sind WebVTT-Dateien. Aus den Cues wird Klartext extrahiert (Zeitstempel und Indizes entfernt), dann normalisiert (Groß-/Kleinschreibung, Interpunktion und einfache Typografie) vor dem Scoring.

Wortaligierung

Referenz und Hypothese werden als Tokenfolgen aligniert. Ein standardmäßiges Levenshtein-artiges dynamisches Programm findet einen minimalen Kostenpfad zwischen den beiden Wortsequenzen; Rückverfolgung liefert Zähler für Substitutionen (S), Löschungen (D) und Einfügungen (I) relativ zur Referenzlänge N.

Word Error Rate (WER) und Genauigkeit

Seien (S), (D) und (I) Substitutions-, Löschungs- und Einfügezähler und (N) die Anzahl der Referenzwörter.

[ \mathrm{WER} = \frac{S + D + I}{N}, \qquad \mathrm{Accuracy} = 1 - \mathrm{WER}. ]

Character Error Rate (CER)

Whitespace wird aus den normalisierten Strings entfernt. Zeichen-Editdistanz ist die Levenshtein-Distanz auf Zeichenebene; Referenzzeichenanzahl ist die Länge des Referenzstrings ohne Leerzeichen.

[ \mathrm{CER} = \frac{\text{Character edit distance}}{\text{Reference character count}}. ]

Real-Time Factor (RTF)

[ \mathrm{RTF} = \frac{\text{Processing time (seconds)}}{\text{Audio duration (seconds)}}. ]

RTF unter 1 bedeutet, dass die Dekodierung auf dieser Hardware/in diesem Lauf schneller als in Echtzeit war.

4. Modellüberblick

Whisper large-v3-turbo gehört zur „large“-Familie und tauscht etwas Rechenaufwand gegen Durchsatz gegenüber vollen Large-Checkpoints (exaktes Verhalten hängt von Implementierung und Hardware ab). Es ist allgemein mehrsprachiges ASR für Entwürfe und Suchindexierung, wo keine perfekte Treue vorausgesetzt wird. Dieser Lauf testet eine Konfiguration aus other.yaml; kein Sweep über Temperatur, Chunking oder VAD.

5. Ergebnisse (aus `result.json`)

Exakte Werte aus dem vorberechneten Metrik-Objekt:

Referenz-Wortanzahl (N): 3442
Substitutionen (S): 188
Löschungen (D): 2192
Einfügungen (I): 0
WER: 0.6914584543869843
Genauigkeit: 0.3085415456130157
Referenz-Zeichenanzahl: 15790
Zeichen-Editdistanz: 10494
CER: 0.664597846738442
Audiodauer (Sekunden): 506.88
STT-Verarbeitungszeit (in JSON): null (siehe Abschnitt 2 für YAML-abgeleitete Dauer)
RTF (in JSON): null (abgeleiteter RTF ≈ 0.151 mit YAML-Zeitstempeln)
Laufzeit des Eval-Skripts: 3.11 s

Gerundet zum Lesen

WER ≈ 69.1 %; Genauigkeit ≈ 30.9 %
CER ≈ 66.5 %
~10,5k Zeichenedits auf ~15,8k Referenzzeichen
RTF ≈ 0.15× (schneller als Echtzeit auf diesem Clip, mit YAML-abgeleiteter Verarbeitungszeit)

6. Fehlerbildanalyse

Mit I = 0 fügt die Hypothese relativ zu dieser Ausrichtung keine überzähligen Wörter hinzu; fast die gesamte Wortfehlerlast liegt bei Löschungen und Substitutionen, und Löschungen sind eine Größenordnung größer als Substitutionen (2192 vs 188).

Interpretation für die Praxis:

Löschlastige Profile deuten oft auf fehlende Abschnitte in der Hypothese (Stillebehandlung, früher Stopp, andere Clip-Länge oder Referenz länger als das tatsächlich transkribierte Audio).
Null Einfügungen sind in unordentlichem ASR aus der Praxis selten; zusammen mit extremem WER ist das ein Signal, Datenpaarung zu prüfen (gleiche Datei, gleiche Sprache, gleiche Referenzbearbeitung), bevor die Punktzahl allein der „Modellqualität“ zugeschrieben wird.

~66 % CER passt zu langen Textpassagen, die zwischen Referenz und Hypothese nicht übereinstimmen — nicht nur gelegentlichen Worttauschen.

7. Zentrale Erkenntnisse

Geschwindigkeit: Abgeleiteter RTF ≈ 0,15 deutet darauf hin, dass der Stack für diesen Clip in einem Bruchteil der Echtzeit fertig war — nützlich, wo Latenz zählt, unabhängig vom rohen WER.
Genauigkeit: ~69 % WER reicht nicht für veröffentlichbare Zitate oder rechtsverbindliche Transkripte ohne intensive menschliche Prüfung.
Fehlerform: Löschungen dominieren; zuerst Abdeckung und Segmentausrichtung untersuchen, bevor Dekodier-Hyperparameter getuned werden.
Ein-Stichprobe-Grenzen: Ein Interview und eine Modellkonfiguration definieren nicht die erwartete Produktionsleistung über Akzente, Codecs oder Rauschen hinweg.
Reproduzierbarkeit: Alle vier Artefakte zusammen zu halten, erhält eine eingefrorene Momentaufnahme.

8. Bestes Modell für dieses Szenario

Nur für diesen Clip und diese Referenz ist Whisper large-v3-turbo eine dokumentierte Basislinie: Zeitstempel beschreiben Durchsatz; WER/CER beschreiben die Abweichung von Ihrer Referenz. Es wird nicht behauptet, das beste Modell für alle englischen Interviews zu sein.

9. Neutrales Fazit

Für Entwurfsnotizen, interne Suche oder grobes Indexieren, wo Fehler akzeptabel sind und Geschwindigkeit zählt, können niedriger RTF und ein gespeichertes Transkript mit klaren Hinweisen dennoch brauchbar sein.

Für Zitate von Teilnehmenden, compliance-sensible Workflows oder Archivpublikation bedeuten die ~31 % Wortgenauigkeit dieses Laufs und das löschlastige Fehlerprofil, dass menschliche Korrektur oder eine andere Erfassung/Referenzausrichtung vorausgesetzt werden sollte, bis sich die Werte auf validierten Paaren verbessern.

Scorer nach Behebung von Datenproblemen erneut laufen lassen; die Methodik bleibt vergleichbar.

Quellenmaterial

Ordnername des Falls: 20260328 (Repository-Pfad-Präfix: test-transcripts/20260328/).

Originalvideo (Audioquelle): Kanonische URL zum selben Video, dessen Untertitel als Referenz dienten (z. B. YouTube-Watch-Link), ergänzen. Das für ASR verarbeitete Audio sollte diesem Upload entsprechen.
Referenztranskript (VTT): test-transcripts/20260328/ref.vtt — Untertitel des Quellvideos, als WebVTT zum Scoring gespeichert.
Modelltranskript (VTT): test-transcripts/20260328/model.vtt — Ausgabe von Whisper large-v3-turbo für dieses Audio.
Lauf-Metadaten: test-transcripts/20260328/other.yaml
Vorberechnete Bewertungsmetriken: test-transcripts/20260328/result.json

Die Auswertung wurde mit scripts/evaluate-vtt-metrics.js in diesem Repository erzeugt. Die Dateien oben unter test-transcripts/20260328/ ablegen, um die zitierten Zahlen zu reproduzieren.

Whisper Large v3 Turbo bei einem englischen Interview — Benchmark vom 28. März 2026 (WER, CER, RTF)

1. Warum dieser Benchmark wichtig ist

2. Testaufbau

3. Bewertungsmethodik

4. Modellüberblick

5. Ergebnisse (aus `result.json`)

6. Fehlerbildanalyse

7. Zentrale Erkenntnisse

8. Bestes Modell für dieses Szenario

9. Neutrales Fazit

Quellenmaterial

Ähnliche Beiträge

Whisper Medium auf englischem YouTube-Audio — Benchmark vom 30.03.2026 (WER, CER, RTF)

Whisper Medium auf englischem YouTube-Audio — Benchmark vom 30.03.2026 (WER, CER, RTF)

Whisper Large v3 Turbo auf englischem YouTube-Audio — Benchmark vom 29. März 2026 (WER, CER, RTF)

Jetzt kostenlos testen

Whisper Large v3 Turbo bei einem englischen Interview — Benchmark vom 28. März 2026 (WER, CER, RTF)

1. Warum dieser Benchmark wichtig ist

2. Testaufbau

3. Bewertungsmethodik

4. Modellüberblick

5. Ergebnisse (aus result.json)

6. Fehlerbildanalyse

7. Zentrale Erkenntnisse

8. Bestes Modell für dieses Szenario

9. Neutrales Fazit

Quellenmaterial

Ähnliche Beiträge

Whisper Medium auf englischem YouTube-Audio — Benchmark vom 30.03.2026 (WER, CER, RTF)

Whisper Medium auf englischem YouTube-Audio — Benchmark vom 30.03.2026 (WER, CER, RTF)

Whisper Large v3 Turbo auf englischem YouTube-Audio — Benchmark vom 29. März 2026 (WER, CER, RTF)

Jetzt kostenlos testen

5. Ergebnisse (aus `result.json`)