Whisper Large v3 Turbo bij een Engelstalig interview — benchmark van 28 maart 2026 (WER, CER, RTF)

Whisper Large v3 Turbo bij een Engelstalig interview — benchmark van 28 maart 2026 (WER, CER, RTF)

2026-03-28Test
Eric King

Eric King

Author


Deze notitie documenteert één vaste-configuratierun op Engelstalige interview-stijl-audio (~8,5 minuten). De scorer meldt een woordfoutpercentage rond 69%, waarbij verwijderingen het foutbudget domineren (2192 verwijderingen versus 188 substituties, 0 invoegingen). Dat patroon betekent meestal dat de hypothesetekst veel minder van de referentie afdekt dan een typische «ruisige maar volledige» transcriptie — de cijfers moeten dus diagnostisch worden gelezen, naast een handmatige check dat modeluitvoer en referentie dezelfde opname en segmentatie beschrijven.
Video en referentietekst. De geteste audio komt uit één bronvideo (link hieronder). Het referentie-WebVTT (ref.vtt) is het ondertitelspoor dat bij die video hoort — geëxporteerd of opgeslagen als WebVTT vanaf de ondertitels van het platform — geen onafhankelijk geschreven «gouden» transcript. De hypothese (model.vtt) is Whisper large-v3-turbo-ASR op dezelfde audio. De metrieken vergelijken dus door het platform geleverde ondertitels met deze ASR-run, een praktische basislijn maar niet hetzelfde als scoren tegen handmatig samengestelde onderzoekstranscripten.

1. Waarom deze benchmark telt

Interview-audio belast ASR met overlappende spraak, onregelmatig tempo, namen en cijfers — veelvoorkomend in redactioneel en onderzoekswerk. Model-id, taal, duur, tijdstempels en standaardmetrieken publiceren maakt de run vergelijkbaar met herhalingen of andere pipelines; het doel is transparantie, geen productclaim.

2. Testopstelling

Tenzij anders vermeld, komen de waarden hieronder uit other.yaml en result.json voor dit geval.
VeldWaarde
Datum (verwerkingsvenster)2026-03-28 (zie processtime-at / completed-at in other.yaml)
ScenarioEngelstalige interview-stijl (taal-tag: English)
Whisper-modellarge-v3-turbo (whisper-model in other.yaml)
Audioduur (YAML)08:25 (label 8 min 25 s realtime)
Audioduur (scorer)506.88 s (uit referentie-VTT-cue-span in result.json)
Realtime-verwerkingsintervalprocesstime-at: 2026-03-28 09:56:40.204completed-at: 2026-03-28 09:57:57.000
Afgeleide STT-verwerkingstijd76.8 s (verschil tussen de twee tijdstempels hierboven; niet opgeslagen in result.json omdat deze run expliciete VTT-modus zonder YAML bij scorer-uitvoer gebruikte)
Afgeleide RTF0.151 (verwerkingstijd ÷ 506.88 s audioduur)
Opmerking: result.json bevat "yamlMeta": null voor deze expliciete twee-bestanden-run; RTF daar is null. Verwerkingstijd en RTF in dit artikel zijn herrekend uit other.yaml voor consistentie met de methodologie-sectie.

3. Evaluatiemethodologie

Referentie en hypothese zijn WebVTT-bestanden. Platte tekst wordt uit cues gehaald (tijdstempels en indexen gestript), daarna genormaliseerd (hoofd-/kleine letters, interpunctie en eenvoudige typografie) vóór scoring.
Woordniveau-alignering
Referentie en hypothese worden als tokenreeksen uitgelijnd. Een standaard Levenshtein-achtig dynamisch programma vindt een pad met minimale kosten tussen de twee woordsequenties; backtracking levert tellingen voor substituties (S), verwijderingen (D) en invoegingen (I) ten opzichte van de referentielengte N.
Word Error Rate (WER) en nauwkeurigheid
Laat (S), (D) en (I) substitutie-, verwijderings- en invoegtellingen zijn, en (N) het aantal referentiewoorden.
[ \mathrm{WER} = \frac{S + D + I}{N}, \qquad \mathrm{Accuracy} = 1 - \mathrm{WER}. ]
Character Error Rate (CER)
Whitespace wordt uit de genormaliseerde strings verwijderd. Tekenbewerkingsafstand is de Levenshtein-afstand op tekenniveau; referentietekentelling is de lengte van de referentiestring zonder spaties.
[ \mathrm{CER} = \frac{\text{Character edit distance}}{\text{Reference character count}}. ]
Real-Time Factor (RTF)
[ \mathrm{RTF} = \frac{\text{Processing time (seconds)}}{\text{Audio duration (seconds)}}. ]
RTF onder 1 betekent dat decoderen sneller was dan realtime op deze hardware/run.

4. Modeloverzicht

Whisper large-v3-turbo hoort bij de «large»-familie en ruilt wat rekenwerk voor doorvoer ten opzichte van volledige large-checkpoints (exact gedrag hangt af van implementatie en hardware). Het is algemeen meertalig ASR geschikt voor concepten en zoekindexering waar geen perfecte getrouwheid wordt aangenomen. Deze run test één configuratie uit other.yaml; geen sweep van temperatuur, chunking of VAD.

5. Resultaten (uit result.json)

Exacte waarden uit het vooraf berekende metriekobject:
  • Referentiewoordtelling (N): 3442
  • Substituties (S): 188
  • Verwijderingen (D): 2192
  • Invoegingen (I): 0
  • WER: 0.6914584543869843
  • Nauwkeurigheid: 0.3085415456130157
  • Referentietekentelling: 15790
  • Tekenbewerkingsafstand: 10494
  • CER: 0.664597846738442
  • Audioduur (seconden): 506.88
  • STT-verwerkingstijd (in JSON): null (zie sectie 2 voor YAML-afgeleide duur)
  • RTF (in JSON): null (afgeleide RTF ≈ 0.151 met YAML-tijdstempels)
  • Runtime evaluatiescript: 3.11 s
Afgerond voor leesbaarheid
  • WER ≈ 69.1%; nauwkeurigheid ≈ 30.9%
  • CER ≈ 66.5%
  • ~10.5k tekenbewerkingen op ~15.8k referentietekens
  • RTF ≈ 0.15× (sneller dan realtime op deze clip, met YAML-afgeleide verwerkingstijd)

6. Foutpatroonanalyse

Met I = 0 voegt de hypothese geen spuriële woorden toe ten opzichte van deze alignering; bijna alle woordfoutmassa zit in verwijderingen en substituties, en verwijderingen zijn een orde van grootte groter dan substituties (2192 vs 188).
Praktische interpretatie:
  • Verwijderingsrijke profielen duiden vaak op ontbrekende segmenten in de hypothese (stilte-afhandeling, vroege stop, andere cliplengte, of referentie langer dan de daadwerkelijk getranscribeerde audio).
  • Nul invoegingen komt zelden voor in rommelige praktijk-ASR; samen met extreem WER is dat een signaal om dataparing te verifiëren (zelfde bestand, taal, referentie-editie) vóór je de score alleen aan «modelkwaliteit» toeschrijft.
CER ~66% past bij lange tekstpassages die niet tussen referentie en hypothese matchen — niet alleen af en toe woordwissels.

7. Kerninzichten

  • Snelheid: Afgeleide RTF ≈ 0.15 suggereert dat de stack in een fractie van realtime klaar was voor deze clip — nuttig waar latentie telt, los van ruwe WER.
  • Nauwkeurigheid: ~69% WER is niet voldoende voor publiceerbare citaten of juridisch niveau-transcripten zonder zware menselijke review.
  • Foutvorm: Verwijderingen domineren; onderzoek eerst dekking en segmentuitlijning vóór het tunen van decode-hyperparameters.
  • Enkele steekproef: Eén interview en één modelconfiguratie definiëren niet de verwachte productieprestatie over accenten, codecs of ruis.
  • Reproduceerbaarheid: Alle vier artefacten samen bewaren behoudt een bevroren momentopname.

8. Beste model voor dit scenario

Alleen voor deze clip en deze referentie is Whisper large-v3-turbo een gedocumenteerde basislijn: tijdstempels beschrijven doorvoer; WER/CER beschrijven mismatch ten opzichte van uw referentie. Er wordt niet beweerd dat dit het beste model is voor alle Engelstalige interviews.

9. Neutraal eindoordeel

Voor conceptnotities, interne zoekfunctie of grove indexering waar fouten acceptabel zijn en snelheid telt, kunnen lage RTF en een opgeslagen transcript nog bruikbaar zijn met duidelijke disclaimers.
Voor citeren van deelnemers, compliance-gevoelige workflows of archiefpublicatie impliceren de ~31% woordnauwkeurigheid van deze run en het verwijderingsrijke foutprofiel dat menselijke proeflezing of een andere vastlegging/referentie-alignering moet worden aangenomen tot scores verbeteren op gevalideerde paren.
Scorer opnieuw draaien na het oplossen van data-issues; de methodologie blijft vergelijkbaar.

Bronmateriaal

Casemapnaam: 20260328 (repository-padprefix: test-transcripts/20260328/).
  • Originele video (audiobron): Voeg de canonieke URL toe van dezelfde video waarvan de ondertitels als referentie dienden (bijv. YouTube-watchlink). De voor ASR verwerkte audio hoort bij deze upload.
  • Referentietranscript (VTT): test-transcripts/20260328/ref.vttondertitels bij de bronvideo, opgeslagen als WebVTT voor scoring.
  • Modeltranscript (VTT): test-transcripts/20260328/model.vtt — Whisper large-v3-turbo-uitvoer op die audio.
  • Run-metadata: test-transcripts/20260328/other.yaml
  • Vooraf berekende evaluatiemetrieken: test-transcripts/20260328/result.json
Evaluatie is geproduceerd met scripts/evaluate-vtt-metrics.js in deze repository. Plaats de bestanden hierboven onder test-transcripts/20260328/ om de geciteerde cijfers te reproduceren.

Probeer het nu gratis

Probeer nu onze AI‑oplossing voor spraak, audio en video. Je profiteert niet alleen van zeer nauwkeurige spraak‑naar‑tekst‑transcriptie, meertalige vertaling en slimme sprekerherkenning, maar ook van automatische ondertitelgeneratie voor video, intelligente audio‑ en videobewerking en gesynchroniseerde audio‑visuele analyse. Het dekt alle scenario’s: vergaderverslagen, short‑video creatie, podcastproductie en meer. Start vandaag nog je gratis proefperiode!

Geluid naar Tekst OnlineGeluid naar Tekst GratisGeluid naar Tekst ConverterGeluid naar Tekst MP3Geluid naar Tekst WAVGeluid naar Tekst met TijdstempelsSpraak naar tekst voor vergaderingenSound to Text Multi LanguageGeluid naar Tekst OndertitelsWAV naar tekst converterenStem naar TekstStem naar Tekst OnlineSpraak naar TekstMP3 naar Tekst ConverterenSpraakopname naar tekst converterenOnline SpraaktypenStem naar Tekst met TijdstempelsStem naar Tekst in RealtimeStem naar Tekst voor Lange AudioStem naar Tekst voor VideoSpraak naar Tekst voor YouTubeSpraak naar Tekst voor VideobewerkingSpraak naar Tekst voor OndertitelsSpraak naar Tekst voor PodcastsSpraak naar Tekst voor InterviewsInterview Audio naar TekstSpraak naar Tekst voor OpnamesSpraak naar Tekst voor VergaderingenSpraak naar Tekst voor CollegesSpraak naar Tekst voor NotitiesStem naar Tekst MeertaligStem naar Tekst NauwkeurigStem naar Tekst SnelPremiere Pro Stem naar Tekst AlternatiefDaVinci Stem naar Tekst AlternatiefVEED Stem naar Tekst AlternatiefInVideo Stem naar Tekst AlternatiefOtter.ai Stem naar Tekst AlternatiefDescript Stem naar Tekst AlternatiefTrint Stem naar Tekst AlternatiefRev Stem naar Tekst AlternatiefSonix Stem naar Tekst AlternatiefHappy Scribe Stem naar Tekst AlternatiefZoom Stem naar Tekst AlternatiefGoogle Meet Stem naar Tekst AlternatiefMicrosoft Teams Stem naar Tekst AlternatiefFireflies.ai Stem naar Tekst AlternatiefFathom Stem naar Tekst AlternatiefFlexClip Stem naar Tekst AlternatiefKapwing Stem naar Tekst AlternatiefCanva Stem naar Tekst AlternatiefSpraak naar Tekst voor Lange AudioAI Spraak naar TekstGratis Spraak naar TekstSpraak naar Tekst zonder ReclameSpraak naar Tekst voor Lawaaierige AudioSpraak naar Tekst met TijdOndertitels Genereren uit AudioPodcast Transcriptie OnlineKlantgesprekken TranscriberenTikTok Stem naar TekstTikTok Audio naar TekstYouTube Spraak naar TekstYouTube Audio naar TekstSpraakmemo naar TekstWhatsApp Spraakbericht naar TekstTelegram Spraakbericht naar TekstDiscord Oproep TranscriptieTwitch Spraak naar TekstSkype Spraak naar TekstMessenger Spraak naar TekstLINE Spraakbericht naar TekstVlogs naar Tekst TranscribenSermoen Audio naar Tekst ConverterenSpraak naar Schrijven ConverterenAudio naar Tekst VertalenAudio Notities naar Tekst ConverterenSpraak TypenSpraak Typen voor VergaderingenSpraak Typen voor YouTubeSpreek om te TypenHandenvrij TypenStem naar WoordenSpraak naar WoordenSpraak naar Tekst OnlineOnline Transcription SoftwareSpraak naar Tekst voor VergaderingenSnelle Spraak naar TekstReal Time Speech to TextLive Transcription AppSpraak naar Tekst voor TikTokGeluid naar Tekst voor TikTokPraten naar WoordenSpraak naar TekstTalk to Text FreeTalk to Text OnlineTalk to Text for YouTubeTalk to Text for SubtitlesTalk to Text for Content CreatorsTalk to Text for MeetingsAudio naar TypenGeluid naar TekstSpraak SchrijftoolSpraak SchrijftoolSpraakdicteeJuridische Transcriptie ToolMedische Dictatie ToolJapanse Audio TranscriptieKoreaanse Meeting TranscriptieMeeting Transcriptie ToolMeeting Audio naar TekstCollege naar Tekst ConverterCollege Audio naar TekstVideo naar Tekst TranscriptieOndertitel Generator voor TikTokCallcenter TranscriptieReels Audio naar Tekst ToolMP3 naar Tekst TranscriberenWAV-bestand naar tekst transcriberenCapCut Spraak naar TekstCapCut Spraak naar TekstVoice to Text in EnglishAudio naar Tekst EngelsVoice to Text in SpanishVoice to Text in FrenchAudio naar Tekst FransVoice to Text in GermanAudio naar Tekst DuitsVoice to Text in JapaneseAudio naar Tekst JapansVoice to Text in KoreanAudio naar Tekst KoreaansVoice to Text in PortugueseVoice to Text in ArabicVoice to Text in ChineseVoice to Text in HindiVoice to Text in RussianWeb Voice Typing ToolVoice Typing Website