🎉 Wir sind live! Alle Services sind während unserer Testphase kostenlos—Preispläne kommen bald.

Ich habe eine englische Interview-Transkription mit KI getestet – Ergebnisse vom 26. Februar 2026 (Whisper BASE, ca. 11 Minuten Audio)

Ich habe eine englische Interview-Transkription mit KI getestet – Ergebnisse vom 26. Februar 2026 (Whisper BASE, ca. 11 Minuten Audio)

2026-02-26Test
Eric King

Eric King

Author


1. Warum dieses Interview‑Benchmark relevant ist

Bei echten Interviews ist Transkriptionsgenauigkeit keine Option, sondern eine Voraussetzung. Sie entscheidet darüber, ob Zitate belastbar sind, ob sich wichtige Themen zuverlässig finden lassen und ob nachgelagerte Analysen den Inhalt korrekt wiedergeben. Ein verlorenes Adjektiv, eine falsch verstandene Zahl oder ein verunstalteter Eigenname können die Bedeutung einer Antwort ändern.
In diesem Benchmark habe ich einen englischen „Bill‑Interview“‑Ausschnitt durch eine Whisper‑basierte Transkriptionspipeline geschickt und mit Standard‑ASR‑Metriken ausgewertet. Das Ziel ist keine Werbung, sondern eine konkrete, reproduzierbare Momentaufnahme, wie sich das System auf einem realen, mittel­langen Interview verhält.
Das Ausgangsinterview stammt aus einem YouTube‑Video, das hier als Kontext referenziert werden kann:
Originales Interviewvideo auf YouTube.

Source Materials

Alle Eingaben für dieses Benchmark liegen im Repository bzw. als statische Ressourcen und können direkt inspiziert werden:
Diese Dateien sind die einzigen Quellen für alle Kennzahlen und Schlussfolgerungen in diesem Beitrag.

Screenshots from this run

SayToWords Transkriptions‑Dashboard – Metrikübersicht
SayToWords Transkriptions‑Dashboard – Transkriptansicht

2. Testaufbau (Testing Setup)

Für diesen Lauf wurden die folgenden Einstellungen verwendet (alle Werte stammen aus den vorberechneten Metadaten und aus result.json):
  • Datum des Laufs: 2026‑02‑26 (aus Verarbeitungstimestamps abgeleitet)
  • Szenario: englisches Interview (test-transcripts/bill-interview)
  • Sprache: Englisch
  • Audiodauer:
    • audioDurationSeconds = 653.2934375
    • 10,89 Minuten Material
  • Verarbeitungszeit:
    • sttProcessingTimeSeconds = 85.476
    • 1,42 Minuten End‑to‑End‑Decoding
  • Modell / Modus:
    • whisper-model: BASE
    • saytowords-mode: base
Aufnahmebedingungen, Mikrofontyp und Sprechdichte sind in den Metadaten nicht dokumentiert und werden daher nicht spekulativ ergänzt. Alignment und Scoring wurden vor der Berichtserstellung durchgeführt; die folgenden Zahlen werden direkt aus test-transcripts/bill-interview/result.json gelesen.

3. Evaluierungsmethodik (Evaluation Methodology)

Sowohl das menschliche Referenztranskript (ref.vtt) als auch die Modell­ausgabe (model.vtt) liegen im WebVTT‑Format vor. Die Auswertekette extrahiert zunächst Klartext aus den Dateien, richtet Referenz und Hypothese gegeneinander aus und berechnet anschließend Fehlerkennzahlen.
Word Error Rate (WER)
Nach der Tokenisierung in Wortsequenzen zählen wir:
  • (S): Substitutionen
  • (D): Deletionen
  • (I): Insertionen
  • (N): Anzahl der Referenzwörter
Die Wortfehlerrate ist definiert als:
[ \text{WER} = \frac{S + D + I}{N} ]
Die Wortgenauigkeit ergibt sich daraus als:
[ \text{Accuracy} = 1 - \text{WER} ]
Character Error Rate (CER)
Auf Zeichenebene werden Leerzeichen entfernt und eine Levenshtein‑Edit‑Distanz berechnet:
  • Edit‑Distanz auf Zeichenebene: Summe aus Insertionen, Deletionen und Substitutionen
  • Gesamtzahl der Zeichen: Anzahl Referenzzeichen (ohne Leerzeichen)
[ \text{CER} = \frac{\text{Character edit distance}}{\text{Total characters}} ]
Real‑Time Factor (RTF)
Der Durchsatz wird mit dem Real‑Time Factor gemessen:
[ \text{RTF} = \frac{\text{Processing Time}}{\text{Audio Duration}} ]
Die Verarbeitungszeit stammt aus der Differenz von processtime-at und completed-at in other.yaml; die Audiodauer aus audio-duration in derselben Datei.
Implementierungsdetails
  • Alle Kennzahlen basieren auf einer Alignment‑Prozedur zwischen Referenz und Hypothese.
  • Wort‑ und Zeicheneditdistanzen werden mit einer leistungsfähigen Levenshtein‑Implementierung berechnet.
  • Die Alignments laufen auf einem C++‑optimierten Backend.
  • Die Zeitkomplexität liegt bei Sequenzlängen (n) und (m) ungefähr bei O(nm).
  • Alle Werte in result.json sind deterministisch und reproduzierbar: gleiche Eingaben erzeugen dieselben Ergebnisse.

4. Modellüberblick (Model Overview)

In diesem Benchmark wurde genau eine Modellkonfiguration evaluiert:
  • Whisper BASE (saytowords-mode: base)
    Ein allgemein einsetzbares Speech‑to‑Text‑Modell mit mittlerer Kapazität, ausgelegt auf englische Mehrakzent‑Szenarien und längere Audiosequenzen. In diesem Benchmark wird es unverändert (ohne Fine‑Tuning, ohne manuelle Korrektur) verwendet, um das Rohverhalten in einem realen Interview zu beobachten.
Künftige Vergleiche könnten kleinere oder größere Whisper‑Varianten sowie Nicht‑Whisper‑Systeme ergänzen; dieser Beitrag konzentriert sich jedoch bewusst auf diese einzelne Baseline.

5. Ergebnisse (aus result.json)

Die folgenden Werte stammen direkt aus test-transcripts/bill-interview/result.json:
  • Audiodauer (s): 653.2934375
  • Verarbeitungszeit (s): 85.476
  • Referenzwörter (N): 1846
  • Substitutionen (S): 67
  • Deletionen (D): 178
  • Insertionen (I): 23
  • WER: 0.14517876489707476
  • Accuracy: 0.8548212351029252
  • Referenzzeichen: 7335
  • Zeichen‑Edit‑Distanz: 825
  • CER: 0.11247443762781185
  • RTF: 0.13083860191079907
Zur besseren Lesbarkeit:
  • WER ≈ 14,52 %
  • Accuracy ≈ 85,48 %
  • CER ≈ 11,25 %
  • RTF ≈ 0,13, also etwa 7,6‑mal schneller als Echtzeit.

6. Fehlerbildanalyse (Error Pattern Analysis)

Es liegen keine segmentweisen Markierungen oder Visualisierungen vor; die Analyse basiert daher vollständig auf den aggregierten Zählwerten.
  • Dominanter Fehlertyp: Deletionen
    • Deletionen: D = 178
    • Substitutionen: S = 67
    • Insertionen: I = 23
      Deletionen machen den Großteil der Wortfehler aus. Das deutet darauf hin, dass das Modell eher Wörter auslässt, als Inhalte zu halluzinieren. Im Interviewkontext äußert sich das häufig als verlorene Funktionswörter, verschluckte Satzenden bei schneller Sprache oder ausgeblendete Teile bei Überschneidungen mehrerer Sprecher.
  • Substitutionen sind vorhanden, aber zweitrangig
    Mit S = 67 machen Substitutionen grob ein Viertel aller Fehler aus. Typischerweise geht es um lexikalische Verwechslungen: ähnlich klingende Wörter, falsch erkannte Namen oder Domänenbegriffe, die das Modell seltener gesehen hat.
  • Insertionen sind relativ selten
    Nur I = 23 Insertionen wurden beobachtet. Das passt zu einem Modell, das eher konservativ in Bezug auf Halluzinationen ist: Es irrt sich häufiger durch Weglassen als durch Hinzufügen.
Auf Zeichenebene:
  • Zeichen‑Edit‑Distanz = 825 bei 7335 Zeichen, entsprechend CER ≈ 11,25 %.
    Im Vergleich zur WER von ~14,5 % zeigt die niedrigere CER, dass viele falsche Wörter auf Zeichenebene noch recht nah an der Referenz liegen – etwa durch kleine Flexions‑ oder Rechtschreibunterschiede oder zerlegte/vereinigt geschriebene Komposita – statt völlig unrelated zu sein.
Ohne zeitstempelgenaue Fehlermarkierung lassen sich keine „Problemstellen bei Minute X“ benennen. Das S/D/I‑Profil zeigt aber bereits deutlich: Dieses System neigt eher zum Unter‑Transkribieren als zum Erfinden zusätzlicher Passagen.

7. Zentrale Erkenntnisse (Key Insights)

Rein aus den Zahlen lassen sich einige Kernaussagen ableiten:
  1. Guter Kompromiss zwischen Geschwindigkeit und Genauigkeit für Interviews
    Mit RTF ≈ 0,13 verarbeitet das System rund 10,9 Minuten Audio in etwa 1,4 Minuten, bei WER ≈ 14,5 % und CER ≈ 11,3 %. Für die Stapelverarbeitung vieler Interviews ist das ein praxistauglicher Punkt.
  2. Fehler sind klar deletions‑lastig
    Deletionen (178) dominieren gegenüber Substitutionen (67) und Insertionen (23). Praktisch bedeutet das: Eher gehen kleine Content‑Stücke verloren, als dass das Modell ganze Sätze hinzufantasiert.
  3. Zeichenebene stabiler als Wortebene
    Die niedrigere CER im Vergleich zur WER zeigt, dass viele falsche Wörter auf Zeichenebene dennoch nahe an der Referenz liegen. Für Aufgaben wie Suche oder Themenclustering, die leichte lexikalische Abweichungen tolerieren, ist das positiv.
  4. Nicht‑triviale Datenmenge
    Mit 1846 Referenzwörtern und 7335 Zeichen nähert sich das Szenario einem echten Interview an und ist weit entfernt von einem Spielzeugbeispiel. Die Metriken beschreiben das Verhalten über mehrere Minuten spontaner Sprache.

8. Bestes Modell für dieses Szenario (Best Model for This Scenario)

In diesem Benchmark wurde ausschließlich Whisper BASE (base mode) getestet – es ist damit zugleich:
  • das stärkste Modell auf dieser „Liste“, und
  • der einzige Referenzpunkt.
Unter diesem Vorzeichen liefert es:
  • WER ≈ 14,5 %, Accuracy ≈ 85,5 % auf ~11 Minuten Interviewaudio.
  • RTF ≈ 0,13, also 7–8‑mal schneller als Echtzeit.
Für Workflows, in denen schnelle, hinreichend genaue Interview­transkripte benötigt werden – etwa zum Browsen, Suchen oder groben Zitieren –, ist diese Konfiguration numerisch ausreichend. Für Anwendungsfälle, in denen jedes Wort sitzen muss, machen die Metriken aber auch klar, dass manuelle Prüfung oder ein stärkeres Modell weiterhin nötig sind.

9. Neutrales Fazit (Neutral Final Verdict)

Auf diesem spezifischen englischen Interview vom 26. Februar 2026 zeigt Whisper BASE im „base“‑Modus:
  • ein deletions‑dominiertes Fehlerprofil mit wenigen Insertionen,
  • eine WER im mittleren Zehnerbereich und eine CER im niedrigen Zehnerbereich auf Basis eines nicht‑trivialen Referenztranskripts,
  • einen Real‑Time Factor von rund 0,13, passend für großskalige Batch‑Verarbeitung.
Das Verhalten ist numerisch konsistent, reproduzierbar und schnell genug für tägliche Benchmarks. Für unabhängige Evaluatoren lautet das Fazit: Diese Konfiguration ist eine solide Basislinie für Interviewtranskription, ersetzt menschliche Kontrolle in hochsensiblen Domänen aber noch nicht.

Referenzartefakte (Reference Artifacts)

Unten sind einklappbare Platzhalter für Referenz‑ und Modelltranskript vorgesehen. Hier können bei Bedarf die vollständigen VTT‑Inhalte eingebettet werden.
ref.vtt (Referenztranskript)
<!-- Hier die vollständigen Inhalte von test-transcripts/bill-interview/ref.vtt einfügen -->
model.vtt (Modelltranskript)
<!-- Hier die vollständigen Inhalte von test-transcripts/bill-interview/model.vtt einfügen -->

Jetzt kostenlos testen

Testen Sie jetzt unseren KI‑basierten Dienst für Sprache, Audio und Video. Sie erhalten nicht nur hochpräzise Sprach‑zu‑Text‑Transkription, mehrsprachige Übersetzung und intelligente Sprechertrennung, sondern auch automatische Untertitelgenerierung für Videos, intelligente Bearbeitung von Audio‑ und Videoinhalten sowie synchronisierte Audio‑/Bild‑Analyse. Damit decken Sie alle Szenarien ab – von Meeting‑Protokollen über Short‑Video‑Produktion bis hin zur Podcast‑Erstellung. Starten Sie noch heute Ihre kostenlose Testphase!

MP3 in Text konvertierenSprachaufnahme zu TextOnline SpracheingabeStimme zu Text mit ZeitstempelnStimme zu Text in EchtzeitStimme zu Text für lange AudioStimme zu Text für VideoSprache zu Text für YouTubeSprache zu Text für VideobearbeitungSprache zu Text für UntertitelSprache zu Text für PodcastsSprache zu Text für InterviewsInterview-Audio zu TextSprache zu Text für AufnahmenSprache zu Text für MeetingsSprache zu Text für VorlesungenSprache zu Text für NotizenStimme zu Text MehrsprachigStimme zu Text PräziseStimme zu Text SchnellPremiere Pro Stimme zu Text AlternativeDaVinci Stimme zu Text AlternativeVEED Stimme zu Text AlternativeInVideo Stimme zu Text AlternativeOtter.ai Stimme zu Text AlternativeDescript Stimme zu Text AlternativeTrint Stimme zu Text AlternativeRev Stimme zu Text AlternativeSonix Stimme zu Text AlternativeHappy Scribe Stimme zu Text AlternativeZoom Stimme zu Text AlternativeGoogle Meet Stimme zu Text AlternativeMicrosoft Teams Stimme zu Text AlternativeFireflies.ai Stimme zu Text AlternativeFathom Stimme zu Text AlternativeFlexClip Stimme zu Text AlternativeKapwing Stimme zu Text AlternativeCanva Stimme zu Text AlternativeSprache-zu-Text für lange AudioKI Sprache zu TextKostenlose Sprache zu TextSprache zu Text ohne WerbungSprache zu Text für lautes AudioSprache zu Text mit ZeitUntertitel aus Audio generierenPodcast-Transkription OnlineKundengespräche TranskribierenTikTok Sprache zu TextTikTok Audio zu TextYouTube Sprache zu TextYouTube Audio zu TextSprachnotiz zu TextWhatsApp-Sprachnachricht zu TextTelegram-Sprachnachricht zu TextDiscord-Anruf-TranskriptionTwitch-Sprache zu TextSkype-Sprache zu TextMessenger-Sprache zu TextLINE-Sprachnachricht zu TextVlogs in Text transkribierenPredigt-Audio in Text konvertierenSprache in Schrift umwandelnAudio in Text übersetzenAudio-Notizen in Text umwandelnSpracheingabeSpracheingabe für BesprechungenSpracheingabe für YouTubeSprechen statt TippenFreihändiges TippenStimme zu WörternSprache zu WörternSprache zu Text OnlineOnline Transcription SoftwareSprache zu Text für BesprechungenSchnelle Sprache zu TextReal Time Speech to TextLive Transcription AppSprache zu Text für TikTokTon zu Text für TikTokSprechen zu WörternSprache zu TextTalk to Text FreeTalk to Text OnlineTalk to Text for YouTubeTalk to Text for SubtitlesTalk to Text for Content CreatorsTalk to Text for MeetingsAudio zu TippenTon zu TextSprach-SchreibwerkzeugSprach-SchreibwerkzeugSprachdiktatRechtliche Transkriptions-ToolMedizinisches Diktier-ToolJapanische Audio-TranskriptionKoreanische Meeting-TranskriptionMeeting-Transkriptions-ToolMeeting-Audio zu TextVorlesung-zu-Text-KonverterVorlesungs-Audio zu TextVideo-zu-Text-TranskriptionUntertitel-Generator für TikTokCall-Center-TranskriptionReels Audio zu Text ToolMP3 in Text transkribierenWAV-Datei in Text transkribierenCapCut Sprache zu TextCapCut Sprache zu TextVoice to Text in EnglishAudio zu Text EnglischVoice to Text in SpanishVoice to Text in FrenchAudio zu Text FranzösischVoice to Text in GermanAudio zu Text DeutschVoice to Text in JapaneseAudio zu Text JapanischVoice to Text in KoreanAudio zu Text KoreanischVoice to Text in PortugueseVoice to Text in ArabicVoice to Text in ChineseVoice to Text in HindiVoice to Text in RussianWeb Voice Typing ToolVoice Typing Website