
Whisper Large v3 Turbo bei einem englischen Interview — Benchmark vom 28. März 2026 (WER, CER, RTF)
2026-03-28Test
Eric King
Author
Diese Notiz dokumentiert einen einzelnen Lauf mit fester Konfiguration auf englischem Interview-Stil-Audio (ca. 8,5 Minuten). Der Scorer meldet eine Wortfehlerrate von etwa 69 %, wobei Löschungen den Fehleranteil dominieren (2192 Löschungen vs 188 Substitutionen, 0 Einfügungen). Dieses Muster bedeutet meist, dass der Hypothesentext weit weniger der Referenz abdeckt als ein typisches „verrauschtes, aber vollständiges“ Transkript — die Zahlen sollten daher diagnostisch gelesen werden, zusammen mit einer manuellen Prüfung, ob Modellausgabe und Referenz dieselbe Aufnahme und Segmentierung beschreiben.
Video und Referenztext. Das getestete Audio stammt aus einem Quellvideo (Link unten). Die Referenz-WebVTT (
ref.vtt) ist die mit diesem Video gelieferte Untertitelspur — als WebVTT von der Plattform exportiert oder gespeichert — kein unabhängig erstelltes „Gold“-Transkript. Die Hypothese (model.vtt) ist Whisper large-v3-turbo-ASR auf demselben Audio. Die Metriken verglehen damit plattformbereitgestellte Untertitel mit diesem ASR-Lauf; das ist eine praktische Basislinie, aber nicht dasselbe wie eine Bewertung gegen handkuratierte Forschungstranskripte.1. Warum dieser Benchmark wichtig ist
Interview-Audio fordert ASR mit überlappender Sprache, ungleichmäßigem Tempo, Namen und Zahlen — Bedingungen, die in redaktioneller und Forschungsarbeit häufig sind. Modell-ID, Sprache, Dauer, Zeitstempel und Standardmetriken zu veröffentlichen, macht den Lauf vergleichbar mit Wiederholungen oder anderen Pipelines; Ziel ist Transparenz, kein Produktversprechen.
2. Testaufbau
Sofern nicht anders angegeben, stammen die Werte unten aus
other.yaml und result.json für diesen Fall.| Feld | Wert |
|---|---|
| Datum (Verarbeitungsfenster) | 2026-03-28 (siehe processtime-at / completed-at in other.yaml) |
| Szenario | Englischer Interview-Stil (Sprach-Tag: English) |
| Whisper-Modell | large-v3-turbo (whisper-model in other.yaml) |
| Audiodauer (YAML) | 08:25 (8 min 25 s Wandzeit-Label) |
| Audiodauer (Scorer) | 506.88 s (aus Referenz-VTT-Cue-Spanne in result.json) |
| Wandzeit-Verarbeitungsintervall | processtime-at: 2026-03-28 09:56:40.204 → completed-at: 2026-03-28 09:57:57.000 |
| Abgeleitete STT-Verarbeitungszeit | ≈ 76.8 s (Differenz der beiden Zeitstempel oben; nicht in result.json gespeichert, weil dieser Lauf expliziten VTT-Modus ohne an den Scorer angehängtes YAML nutzte) |
| Abgeleiteter RTF | ≈ 0.151 (Verarbeitungszeit ÷ 506.88 s Audiodauer) |
Hinweis:
result.json enthält für diesen expliziten Zwei-Dateien-Lauf "yamlMeta": null; RTF dort ist null. Verarbeitungszeit und RTF in diesem Artikel sind aus other.yaml neu berechnet für konsistente Berichterstattung mit dem Methodikabschnitt.3. Bewertungsmethodik
Referenz und Hypothese sind WebVTT-Dateien. Aus den Cues wird Klartext extrahiert (Zeitstempel und Indizes entfernt), dann normalisiert (Groß-/Kleinschreibung, Interpunktion und einfache Typografie) vor dem Scoring.
Wortaligierung
Referenz und Hypothese werden als Tokenfolgen aligniert. Ein standardmäßiges Levenshtein-artiges dynamisches Programm findet einen minimalen Kostenpfad zwischen den beiden Wortsequenzen; Rückverfolgung liefert Zähler für Substitutionen (S), Löschungen (D) und Einfügungen (I) relativ zur Referenzlänge N.
Word Error Rate (WER) und Genauigkeit
Seien (S), (D) und (I) Substitutions-, Löschungs- und Einfügezähler und (N) die Anzahl der Referenzwörter.
[
\mathrm{WER} = \frac{S + D + I}{N}, \qquad \mathrm{Accuracy} = 1 - \mathrm{WER}.
]
Character Error Rate (CER)
Whitespace wird aus den normalisierten Strings entfernt. Zeichen-Editdistanz ist die Levenshtein-Distanz auf Zeichenebene; Referenzzeichenanzahl ist die Länge des Referenzstrings ohne Leerzeichen.
[
\mathrm{CER} = \frac{\text{Character edit distance}}{\text{Reference character count}}.
]
Real-Time Factor (RTF)
[
\mathrm{RTF} = \frac{\text{Processing time (seconds)}}{\text{Audio duration (seconds)}}.
]
RTF unter 1 bedeutet, dass die Dekodierung auf dieser Hardware/in diesem Lauf schneller als in Echtzeit war.
4. Modellüberblick
Whisper large-v3-turbo gehört zur „large“-Familie und tauscht etwas Rechenaufwand gegen Durchsatz gegenüber vollen Large-Checkpoints (exaktes Verhalten hängt von Implementierung und Hardware ab). Es ist allgemein mehrsprachiges ASR für Entwürfe und Suchindexierung, wo keine perfekte Treue vorausgesetzt wird. Dieser Lauf testet eine Konfiguration aus
other.yaml; kein Sweep über Temperatur, Chunking oder VAD.5. Ergebnisse (aus result.json)
Exakte Werte aus dem vorberechneten Metrik-Objekt:
- Referenz-Wortanzahl (N): 3442
- Substitutionen (S): 188
- Löschungen (D): 2192
- Einfügungen (I): 0
- WER: 0.6914584543869843
- Genauigkeit: 0.3085415456130157
- Referenz-Zeichenanzahl: 15790
- Zeichen-Editdistanz: 10494
- CER: 0.664597846738442
- Audiodauer (Sekunden): 506.88
- STT-Verarbeitungszeit (in JSON):
null(siehe Abschnitt 2 für YAML-abgeleitete Dauer) - RTF (in JSON):
null(abgeleiteter RTF ≈ 0.151 mit YAML-Zeitstempeln) - Laufzeit des Eval-Skripts: 3.11 s
Gerundet zum Lesen
- WER ≈ 69.1 %; Genauigkeit ≈ 30.9 %
- CER ≈ 66.5 %
- ~10,5k Zeichenedits auf ~15,8k Referenzzeichen
- RTF ≈ 0.15× (schneller als Echtzeit auf diesem Clip, mit YAML-abgeleiteter Verarbeitungszeit)
6. Fehlerbildanalyse
Mit I = 0 fügt die Hypothese relativ zu dieser Ausrichtung keine überzähligen Wörter hinzu; fast die gesamte Wortfehlerlast liegt bei Löschungen und Substitutionen, und Löschungen sind eine Größenordnung größer als Substitutionen (2192 vs 188).
Interpretation für die Praxis:
- Löschlastige Profile deuten oft auf fehlende Abschnitte in der Hypothese (Stillebehandlung, früher Stopp, andere Clip-Länge oder Referenz länger als das tatsächlich transkribierte Audio).
- Null Einfügungen sind in unordentlichem ASR aus der Praxis selten; zusammen mit extremem WER ist das ein Signal, Datenpaarung zu prüfen (gleiche Datei, gleiche Sprache, gleiche Referenzbearbeitung), bevor die Punktzahl allein der „Modellqualität“ zugeschrieben wird.
~66 % CER passt zu langen Textpassagen, die zwischen Referenz und Hypothese nicht übereinstimmen — nicht nur gelegentlichen Worttauschen.
7. Zentrale Erkenntnisse
- Geschwindigkeit: Abgeleiteter RTF ≈ 0,15 deutet darauf hin, dass der Stack für diesen Clip in einem Bruchteil der Echtzeit fertig war — nützlich, wo Latenz zählt, unabhängig vom rohen WER.
- Genauigkeit: ~69 % WER reicht nicht für veröffentlichbare Zitate oder rechtsverbindliche Transkripte ohne intensive menschliche Prüfung.
- Fehlerform: Löschungen dominieren; zuerst Abdeckung und Segmentausrichtung untersuchen, bevor Dekodier-Hyperparameter getuned werden.
- Ein-Stichprobe-Grenzen: Ein Interview und eine Modellkonfiguration definieren nicht die erwartete Produktionsleistung über Akzente, Codecs oder Rauschen hinweg.
- Reproduzierbarkeit: Alle vier Artefakte zusammen zu halten, erhält eine eingefrorene Momentaufnahme.
8. Bestes Modell für dieses Szenario
Nur für diesen Clip und diese Referenz ist Whisper large-v3-turbo eine dokumentierte Basislinie: Zeitstempel beschreiben Durchsatz; WER/CER beschreiben die Abweichung von Ihrer Referenz. Es wird nicht behauptet, das beste Modell für alle englischen Interviews zu sein.
9. Neutrales Fazit
Für Entwurfsnotizen, interne Suche oder grobes Indexieren, wo Fehler akzeptabel sind und Geschwindigkeit zählt, können niedriger RTF und ein gespeichertes Transkript mit klaren Hinweisen dennoch brauchbar sein.
Für Zitate von Teilnehmenden, compliance-sensible Workflows oder Archivpublikation bedeuten die ~31 % Wortgenauigkeit dieses Laufs und das löschlastige Fehlerprofil, dass menschliche Korrektur oder eine andere Erfassung/Referenzausrichtung vorausgesetzt werden sollte, bis sich die Werte auf validierten Paaren verbessern.
Scorer nach Behebung von Datenproblemen erneut laufen lassen; die Methodik bleibt vergleichbar.
Quellenmaterial
Ordnername des Falls:
20260328 (Repository-Pfad-Präfix: test-transcripts/20260328/).- Originalvideo (Audioquelle): Kanonische URL zum selben Video, dessen Untertitel als Referenz dienten (z. B. YouTube-Watch-Link), ergänzen. Das für ASR verarbeitete Audio sollte diesem Upload entsprechen.
- Referenztranskript (VTT):
test-transcripts/20260328/ref.vtt— Untertitel des Quellvideos, als WebVTT zum Scoring gespeichert. - Modelltranskript (VTT):
test-transcripts/20260328/model.vtt— Ausgabe von Whisper large-v3-turbo für dieses Audio. - Lauf-Metadaten:
test-transcripts/20260328/other.yaml - Vorberechnete Bewertungsmetriken:
test-transcripts/20260328/result.json
Die Auswertung wurde mit
scripts/evaluate-vtt-metrics.js in diesem Repository erzeugt. Die Dateien oben unter test-transcripts/20260328/ ablegen, um die zitierten Zahlen zu reproduzieren.