Whisper Large v3 Turbo bei einem englischen Interview — Benchmark vom 28. März 2026 (WER, CER, RTF)

Whisper Large v3 Turbo bei einem englischen Interview — Benchmark vom 28. März 2026 (WER, CER, RTF)

2026-03-28Test
Eric King

Eric King

Author


Diese Notiz dokumentiert einen einzelnen Lauf mit fester Konfiguration auf englischem Interview-Stil-Audio (ca. 8,5 Minuten). Der Scorer meldet eine Wortfehlerrate von etwa 69 %, wobei Löschungen den Fehleranteil dominieren (2192 Löschungen vs 188 Substitutionen, 0 Einfügungen). Dieses Muster bedeutet meist, dass der Hypothesentext weit weniger der Referenz abdeckt als ein typisches „verrauschtes, aber vollständiges“ Transkript — die Zahlen sollten daher diagnostisch gelesen werden, zusammen mit einer manuellen Prüfung, ob Modellausgabe und Referenz dieselbe Aufnahme und Segmentierung beschreiben.
Video und Referenztext. Das getestete Audio stammt aus einem Quellvideo (Link unten). Die Referenz-WebVTT (ref.vtt) ist die mit diesem Video gelieferte Untertitelspur — als WebVTT von der Plattform exportiert oder gespeichert — kein unabhängig erstelltes „Gold“-Transkript. Die Hypothese (model.vtt) ist Whisper large-v3-turbo-ASR auf demselben Audio. Die Metriken verglehen damit plattformbereitgestellte Untertitel mit diesem ASR-Lauf; das ist eine praktische Basislinie, aber nicht dasselbe wie eine Bewertung gegen handkuratierte Forschungstranskripte.

1. Warum dieser Benchmark wichtig ist

Interview-Audio fordert ASR mit überlappender Sprache, ungleichmäßigem Tempo, Namen und Zahlen — Bedingungen, die in redaktioneller und Forschungsarbeit häufig sind. Modell-ID, Sprache, Dauer, Zeitstempel und Standardmetriken zu veröffentlichen, macht den Lauf vergleichbar mit Wiederholungen oder anderen Pipelines; Ziel ist Transparenz, kein Produktversprechen.

2. Testaufbau

Sofern nicht anders angegeben, stammen die Werte unten aus other.yaml und result.json für diesen Fall.
FeldWert
Datum (Verarbeitungsfenster)2026-03-28 (siehe processtime-at / completed-at in other.yaml)
SzenarioEnglischer Interview-Stil (Sprach-Tag: English)
Whisper-Modelllarge-v3-turbo (whisper-model in other.yaml)
Audiodauer (YAML)08:25 (8 min 25 s Wandzeit-Label)
Audiodauer (Scorer)506.88 s (aus Referenz-VTT-Cue-Spanne in result.json)
Wandzeit-Verarbeitungsintervallprocesstime-at: 2026-03-28 09:56:40.204completed-at: 2026-03-28 09:57:57.000
Abgeleitete STT-Verarbeitungszeit76.8 s (Differenz der beiden Zeitstempel oben; nicht in result.json gespeichert, weil dieser Lauf expliziten VTT-Modus ohne an den Scorer angehängtes YAML nutzte)
Abgeleiteter RTF0.151 (Verarbeitungszeit ÷ 506.88 s Audiodauer)
Hinweis: result.json enthält für diesen expliziten Zwei-Dateien-Lauf "yamlMeta": null; RTF dort ist null. Verarbeitungszeit und RTF in diesem Artikel sind aus other.yaml neu berechnet für konsistente Berichterstattung mit dem Methodikabschnitt.

3. Bewertungsmethodik

Referenz und Hypothese sind WebVTT-Dateien. Aus den Cues wird Klartext extrahiert (Zeitstempel und Indizes entfernt), dann normalisiert (Groß-/Kleinschreibung, Interpunktion und einfache Typografie) vor dem Scoring.
Wortaligierung
Referenz und Hypothese werden als Tokenfolgen aligniert. Ein standardmäßiges Levenshtein-artiges dynamisches Programm findet einen minimalen Kostenpfad zwischen den beiden Wortsequenzen; Rückverfolgung liefert Zähler für Substitutionen (S), Löschungen (D) und Einfügungen (I) relativ zur Referenzlänge N.
Word Error Rate (WER) und Genauigkeit
Seien (S), (D) und (I) Substitutions-, Löschungs- und Einfügezähler und (N) die Anzahl der Referenzwörter.
[ \mathrm{WER} = \frac{S + D + I}{N}, \qquad \mathrm{Accuracy} = 1 - \mathrm{WER}. ]
Character Error Rate (CER)
Whitespace wird aus den normalisierten Strings entfernt. Zeichen-Editdistanz ist die Levenshtein-Distanz auf Zeichenebene; Referenzzeichenanzahl ist die Länge des Referenzstrings ohne Leerzeichen.
[ \mathrm{CER} = \frac{\text{Character edit distance}}{\text{Reference character count}}. ]
Real-Time Factor (RTF)
[ \mathrm{RTF} = \frac{\text{Processing time (seconds)}}{\text{Audio duration (seconds)}}. ]
RTF unter 1 bedeutet, dass die Dekodierung auf dieser Hardware/in diesem Lauf schneller als in Echtzeit war.

4. Modellüberblick

Whisper large-v3-turbo gehört zur „large“-Familie und tauscht etwas Rechenaufwand gegen Durchsatz gegenüber vollen Large-Checkpoints (exaktes Verhalten hängt von Implementierung und Hardware ab). Es ist allgemein mehrsprachiges ASR für Entwürfe und Suchindexierung, wo keine perfekte Treue vorausgesetzt wird. Dieser Lauf testet eine Konfiguration aus other.yaml; kein Sweep über Temperatur, Chunking oder VAD.

5. Ergebnisse (aus result.json)

Exakte Werte aus dem vorberechneten Metrik-Objekt:
  • Referenz-Wortanzahl (N): 3442
  • Substitutionen (S): 188
  • Löschungen (D): 2192
  • Einfügungen (I): 0
  • WER: 0.6914584543869843
  • Genauigkeit: 0.3085415456130157
  • Referenz-Zeichenanzahl: 15790
  • Zeichen-Editdistanz: 10494
  • CER: 0.664597846738442
  • Audiodauer (Sekunden): 506.88
  • STT-Verarbeitungszeit (in JSON): null (siehe Abschnitt 2 für YAML-abgeleitete Dauer)
  • RTF (in JSON): null (abgeleiteter RTF ≈ 0.151 mit YAML-Zeitstempeln)
  • Laufzeit des Eval-Skripts: 3.11 s
Gerundet zum Lesen
  • WER ≈ 69.1 %; Genauigkeit ≈ 30.9 %
  • CER ≈ 66.5 %
  • ~10,5k Zeichenedits auf ~15,8k Referenzzeichen
  • RTF ≈ 0.15× (schneller als Echtzeit auf diesem Clip, mit YAML-abgeleiteter Verarbeitungszeit)

6. Fehlerbildanalyse

Mit I = 0 fügt die Hypothese relativ zu dieser Ausrichtung keine überzähligen Wörter hinzu; fast die gesamte Wortfehlerlast liegt bei Löschungen und Substitutionen, und Löschungen sind eine Größenordnung größer als Substitutionen (2192 vs 188).
Interpretation für die Praxis:
  • Löschlastige Profile deuten oft auf fehlende Abschnitte in der Hypothese (Stillebehandlung, früher Stopp, andere Clip-Länge oder Referenz länger als das tatsächlich transkribierte Audio).
  • Null Einfügungen sind in unordentlichem ASR aus der Praxis selten; zusammen mit extremem WER ist das ein Signal, Datenpaarung zu prüfen (gleiche Datei, gleiche Sprache, gleiche Referenzbearbeitung), bevor die Punktzahl allein der „Modellqualität“ zugeschrieben wird.
~66 % CER passt zu langen Textpassagen, die zwischen Referenz und Hypothese nicht übereinstimmen — nicht nur gelegentlichen Worttauschen.

7. Zentrale Erkenntnisse

  • Geschwindigkeit: Abgeleiteter RTF ≈ 0,15 deutet darauf hin, dass der Stack für diesen Clip in einem Bruchteil der Echtzeit fertig war — nützlich, wo Latenz zählt, unabhängig vom rohen WER.
  • Genauigkeit: ~69 % WER reicht nicht für veröffentlichbare Zitate oder rechtsverbindliche Transkripte ohne intensive menschliche Prüfung.
  • Fehlerform: Löschungen dominieren; zuerst Abdeckung und Segmentausrichtung untersuchen, bevor Dekodier-Hyperparameter getuned werden.
  • Ein-Stichprobe-Grenzen: Ein Interview und eine Modellkonfiguration definieren nicht die erwartete Produktionsleistung über Akzente, Codecs oder Rauschen hinweg.
  • Reproduzierbarkeit: Alle vier Artefakte zusammen zu halten, erhält eine eingefrorene Momentaufnahme.

8. Bestes Modell für dieses Szenario

Nur für diesen Clip und diese Referenz ist Whisper large-v3-turbo eine dokumentierte Basislinie: Zeitstempel beschreiben Durchsatz; WER/CER beschreiben die Abweichung von Ihrer Referenz. Es wird nicht behauptet, das beste Modell für alle englischen Interviews zu sein.

9. Neutrales Fazit

Für Entwurfsnotizen, interne Suche oder grobes Indexieren, wo Fehler akzeptabel sind und Geschwindigkeit zählt, können niedriger RTF und ein gespeichertes Transkript mit klaren Hinweisen dennoch brauchbar sein.
Für Zitate von Teilnehmenden, compliance-sensible Workflows oder Archivpublikation bedeuten die ~31 % Wortgenauigkeit dieses Laufs und das löschlastige Fehlerprofil, dass menschliche Korrektur oder eine andere Erfassung/Referenzausrichtung vorausgesetzt werden sollte, bis sich die Werte auf validierten Paaren verbessern.
Scorer nach Behebung von Datenproblemen erneut laufen lassen; die Methodik bleibt vergleichbar.

Quellenmaterial

Ordnername des Falls: 20260328 (Repository-Pfad-Präfix: test-transcripts/20260328/).
  • Originalvideo (Audioquelle): Kanonische URL zum selben Video, dessen Untertitel als Referenz dienten (z. B. YouTube-Watch-Link), ergänzen. Das für ASR verarbeitete Audio sollte diesem Upload entsprechen.
  • Referenztranskript (VTT): test-transcripts/20260328/ref.vttUntertitel des Quellvideos, als WebVTT zum Scoring gespeichert.
  • Modelltranskript (VTT): test-transcripts/20260328/model.vtt — Ausgabe von Whisper large-v3-turbo für dieses Audio.
  • Lauf-Metadaten: test-transcripts/20260328/other.yaml
  • Vorberechnete Bewertungsmetriken: test-transcripts/20260328/result.json
Die Auswertung wurde mit scripts/evaluate-vtt-metrics.js in diesem Repository erzeugt. Die Dateien oben unter test-transcripts/20260328/ ablegen, um die zitierten Zahlen zu reproduzieren.

Jetzt kostenlos testen

Testen Sie jetzt unseren KI‑basierten Dienst für Sprache, Audio und Video. Sie erhalten nicht nur hochpräzise Sprach‑zu‑Text‑Transkription, mehrsprachige Übersetzung und intelligente Sprechertrennung, sondern auch automatische Untertitelgenerierung für Videos, intelligente Bearbeitung von Audio‑ und Videoinhalten sowie synchronisierte Audio‑/Bild‑Analyse. Damit decken Sie alle Szenarien ab – von Meeting‑Protokollen über Short‑Video‑Produktion bis hin zur Podcast‑Erstellung. Starten Sie noch heute Ihre kostenlose Testphase!

Sound zu Text OnlineSound zu Text KostenlosSound zu Text KonverterSound zu Text MP3Sound zu Text WAVSound zu Text mit ZeitstempelSprache zu Text für MeetingsSound to Text Multi LanguageSound zu Text UntertitelWAV in Text konvertierenStimme zu TextStimme zu Text OnlineSprache zu TextMP3 in Text konvertierenSprachaufnahme zu TextOnline SpracheingabeStimme zu Text mit ZeitstempelnStimme zu Text in EchtzeitStimme zu Text für lange AudioStimme zu Text für VideoSprache zu Text für YouTubeSprache zu Text für VideobearbeitungSprache zu Text für UntertitelSprache zu Text für PodcastsSprache zu Text für InterviewsInterview-Audio zu TextSprache zu Text für AufnahmenSprache zu Text für MeetingsSprache zu Text für VorlesungenSprache zu Text für NotizenStimme zu Text MehrsprachigStimme zu Text PräziseStimme zu Text SchnellPremiere Pro Stimme zu Text AlternativeDaVinci Stimme zu Text AlternativeVEED Stimme zu Text AlternativeInVideo Stimme zu Text AlternativeOtter.ai Stimme zu Text AlternativeDescript Stimme zu Text AlternativeTrint Stimme zu Text AlternativeRev Stimme zu Text AlternativeSonix Stimme zu Text AlternativeHappy Scribe Stimme zu Text AlternativeZoom Stimme zu Text AlternativeGoogle Meet Stimme zu Text AlternativeMicrosoft Teams Stimme zu Text AlternativeFireflies.ai Stimme zu Text AlternativeFathom Stimme zu Text AlternativeFlexClip Stimme zu Text AlternativeKapwing Stimme zu Text AlternativeCanva Stimme zu Text AlternativeSprache-zu-Text für lange AudioKI Sprache zu TextKostenlose Sprache zu TextSprache zu Text ohne WerbungSprache zu Text für lautes AudioSprache zu Text mit ZeitUntertitel aus Audio generierenPodcast-Transkription OnlineKundengespräche TranskribierenTikTok Sprache zu TextTikTok Audio zu TextYouTube Sprache zu TextYouTube Audio zu TextSprachnotiz zu TextWhatsApp-Sprachnachricht zu TextTelegram-Sprachnachricht zu TextDiscord-Anruf-TranskriptionTwitch-Sprache zu TextSkype-Sprache zu TextMessenger-Sprache zu TextLINE-Sprachnachricht zu TextVlogs in Text transkribierenPredigt-Audio in Text konvertierenSprache in Schrift umwandelnAudio in Text übersetzenAudio-Notizen in Text umwandelnSpracheingabeSpracheingabe für BesprechungenSpracheingabe für YouTubeSprechen statt TippenFreihändiges TippenStimme zu WörternSprache zu WörternSprache zu Text OnlineOnline Transcription SoftwareSprache zu Text für BesprechungenSchnelle Sprache zu TextReal Time Speech to TextLive Transcription AppSprache zu Text für TikTokTon zu Text für TikTokSprechen zu WörternSprache zu TextTalk to Text FreeTalk to Text OnlineTalk to Text for YouTubeTalk to Text for SubtitlesTalk to Text for Content CreatorsTalk to Text for MeetingsAudio zu TippenTon zu TextSprach-SchreibwerkzeugSprach-SchreibwerkzeugSprachdiktatRechtliche Transkriptions-ToolMedizinisches Diktier-ToolJapanische Audio-TranskriptionKoreanische Meeting-TranskriptionMeeting-Transkriptions-ToolMeeting-Audio zu TextVorlesung-zu-Text-KonverterVorlesungs-Audio zu TextVideo-zu-Text-TranskriptionUntertitel-Generator für TikTokCall-Center-TranskriptionReels Audio zu Text ToolMP3 in Text transkribierenWAV-Datei in Text transkribierenCapCut Sprache zu TextCapCut Sprache zu TextVoice to Text in EnglishAudio zu Text EnglischVoice to Text in SpanishVoice to Text in FrenchAudio zu Text FranzösischVoice to Text in GermanAudio zu Text DeutschVoice to Text in JapaneseAudio zu Text JapanischVoice to Text in KoreanAudio zu Text KoreanischVoice to Text in PortugueseVoice to Text in ArabicVoice to Text in ChineseVoice to Text in HindiVoice to Text in RussianWeb Voice Typing ToolVoice Typing Website