
Whisper Large v3 Turbo bij een Engelstalig interview — benchmark van 28 maart 2026 (WER, CER, RTF)
2026-03-28Test
Eric King
Author
Deze notitie documenteert één vaste-configuratierun op Engelstalige interview-stijl-audio (~8,5 minuten). De scorer meldt een woordfoutpercentage rond 69%, waarbij verwijderingen het foutbudget domineren (2192 verwijderingen versus 188 substituties, 0 invoegingen). Dat patroon betekent meestal dat de hypothesetekst veel minder van de referentie afdekt dan een typische «ruisige maar volledige» transcriptie — de cijfers moeten dus diagnostisch worden gelezen, naast een handmatige check dat modeluitvoer en referentie dezelfde opname en segmentatie beschrijven.
Video en referentietekst. De geteste audio komt uit één bronvideo (link hieronder). Het referentie-WebVTT (
ref.vtt) is het ondertitelspoor dat bij die video hoort — geëxporteerd of opgeslagen als WebVTT vanaf de ondertitels van het platform — geen onafhankelijk geschreven «gouden» transcript. De hypothese (model.vtt) is Whisper large-v3-turbo-ASR op dezelfde audio. De metrieken vergelijken dus door het platform geleverde ondertitels met deze ASR-run, een praktische basislijn maar niet hetzelfde als scoren tegen handmatig samengestelde onderzoekstranscripten.1. Waarom deze benchmark telt
Interview-audio belast ASR met overlappende spraak, onregelmatig tempo, namen en cijfers — veelvoorkomend in redactioneel en onderzoekswerk. Model-id, taal, duur, tijdstempels en standaardmetrieken publiceren maakt de run vergelijkbaar met herhalingen of andere pipelines; het doel is transparantie, geen productclaim.
2. Testopstelling
Tenzij anders vermeld, komen de waarden hieronder uit
other.yaml en result.json voor dit geval.| Veld | Waarde |
|---|---|
| Datum (verwerkingsvenster) | 2026-03-28 (zie processtime-at / completed-at in other.yaml) |
| Scenario | Engelstalige interview-stijl (taal-tag: English) |
| Whisper-model | large-v3-turbo (whisper-model in other.yaml) |
| Audioduur (YAML) | 08:25 (label 8 min 25 s realtime) |
| Audioduur (scorer) | 506.88 s (uit referentie-VTT-cue-span in result.json) |
| Realtime-verwerkingsinterval | processtime-at: 2026-03-28 09:56:40.204 → completed-at: 2026-03-28 09:57:57.000 |
| Afgeleide STT-verwerkingstijd | ≈ 76.8 s (verschil tussen de twee tijdstempels hierboven; niet opgeslagen in result.json omdat deze run expliciete VTT-modus zonder YAML bij scorer-uitvoer gebruikte) |
| Afgeleide RTF | ≈ 0.151 (verwerkingstijd ÷ 506.88 s audioduur) |
Opmerking:
result.json bevat "yamlMeta": null voor deze expliciete twee-bestanden-run; RTF daar is null. Verwerkingstijd en RTF in dit artikel zijn herrekend uit other.yaml voor consistentie met de methodologie-sectie.3. Evaluatiemethodologie
Referentie en hypothese zijn WebVTT-bestanden. Platte tekst wordt uit cues gehaald (tijdstempels en indexen gestript), daarna genormaliseerd (hoofd-/kleine letters, interpunctie en eenvoudige typografie) vóór scoring.
Woordniveau-alignering
Referentie en hypothese worden als tokenreeksen uitgelijnd. Een standaard Levenshtein-achtig dynamisch programma vindt een pad met minimale kosten tussen de twee woordsequenties; backtracking levert tellingen voor substituties (S), verwijderingen (D) en invoegingen (I) ten opzichte van de referentielengte N.
Word Error Rate (WER) en nauwkeurigheid
Laat (S), (D) en (I) substitutie-, verwijderings- en invoegtellingen zijn, en (N) het aantal referentiewoorden.
[
\mathrm{WER} = \frac{S + D + I}{N}, \qquad \mathrm{Accuracy} = 1 - \mathrm{WER}.
]
Character Error Rate (CER)
Whitespace wordt uit de genormaliseerde strings verwijderd. Tekenbewerkingsafstand is de Levenshtein-afstand op tekenniveau; referentietekentelling is de lengte van de referentiestring zonder spaties.
[
\mathrm{CER} = \frac{\text{Character edit distance}}{\text{Reference character count}}.
]
Real-Time Factor (RTF)
[
\mathrm{RTF} = \frac{\text{Processing time (seconds)}}{\text{Audio duration (seconds)}}.
]
RTF onder 1 betekent dat decoderen sneller was dan realtime op deze hardware/run.
4. Modeloverzicht
Whisper large-v3-turbo hoort bij de «large»-familie en ruilt wat rekenwerk voor doorvoer ten opzichte van volledige large-checkpoints (exact gedrag hangt af van implementatie en hardware). Het is algemeen meertalig ASR geschikt voor concepten en zoekindexering waar geen perfecte getrouwheid wordt aangenomen. Deze run test één configuratie uit
other.yaml; geen sweep van temperatuur, chunking of VAD.5. Resultaten (uit result.json)
Exacte waarden uit het vooraf berekende metriekobject:
- Referentiewoordtelling (N): 3442
- Substituties (S): 188
- Verwijderingen (D): 2192
- Invoegingen (I): 0
- WER: 0.6914584543869843
- Nauwkeurigheid: 0.3085415456130157
- Referentietekentelling: 15790
- Tekenbewerkingsafstand: 10494
- CER: 0.664597846738442
- Audioduur (seconden): 506.88
- STT-verwerkingstijd (in JSON):
null(zie sectie 2 voor YAML-afgeleide duur) - RTF (in JSON):
null(afgeleide RTF ≈ 0.151 met YAML-tijdstempels) - Runtime evaluatiescript: 3.11 s
Afgerond voor leesbaarheid
- WER ≈ 69.1%; nauwkeurigheid ≈ 30.9%
- CER ≈ 66.5%
- ~10.5k tekenbewerkingen op ~15.8k referentietekens
- RTF ≈ 0.15× (sneller dan realtime op deze clip, met YAML-afgeleide verwerkingstijd)
6. Foutpatroonanalyse
Met I = 0 voegt de hypothese geen spuriële woorden toe ten opzichte van deze alignering; bijna alle woordfoutmassa zit in verwijderingen en substituties, en verwijderingen zijn een orde van grootte groter dan substituties (2192 vs 188).
Praktische interpretatie:
- Verwijderingsrijke profielen duiden vaak op ontbrekende segmenten in de hypothese (stilte-afhandeling, vroege stop, andere cliplengte, of referentie langer dan de daadwerkelijk getranscribeerde audio).
- Nul invoegingen komt zelden voor in rommelige praktijk-ASR; samen met extreem WER is dat een signaal om dataparing te verifiëren (zelfde bestand, taal, referentie-editie) vóór je de score alleen aan «modelkwaliteit» toeschrijft.
CER ~66% past bij lange tekstpassages die niet tussen referentie en hypothese matchen — niet alleen af en toe woordwissels.
7. Kerninzichten
- Snelheid: Afgeleide RTF ≈ 0.15 suggereert dat de stack in een fractie van realtime klaar was voor deze clip — nuttig waar latentie telt, los van ruwe WER.
- Nauwkeurigheid: ~69% WER is niet voldoende voor publiceerbare citaten of juridisch niveau-transcripten zonder zware menselijke review.
- Foutvorm: Verwijderingen domineren; onderzoek eerst dekking en segmentuitlijning vóór het tunen van decode-hyperparameters.
- Enkele steekproef: Eén interview en één modelconfiguratie definiëren niet de verwachte productieprestatie over accenten, codecs of ruis.
- Reproduceerbaarheid: Alle vier artefacten samen bewaren behoudt een bevroren momentopname.
8. Beste model voor dit scenario
Alleen voor deze clip en deze referentie is Whisper large-v3-turbo een gedocumenteerde basislijn: tijdstempels beschrijven doorvoer; WER/CER beschrijven mismatch ten opzichte van uw referentie. Er wordt niet beweerd dat dit het beste model is voor alle Engelstalige interviews.
9. Neutraal eindoordeel
Voor conceptnotities, interne zoekfunctie of grove indexering waar fouten acceptabel zijn en snelheid telt, kunnen lage RTF en een opgeslagen transcript nog bruikbaar zijn met duidelijke disclaimers.
Voor citeren van deelnemers, compliance-gevoelige workflows of archiefpublicatie impliceren de ~31% woordnauwkeurigheid van deze run en het verwijderingsrijke foutprofiel dat menselijke proeflezing of een andere vastlegging/referentie-alignering moet worden aangenomen tot scores verbeteren op gevalideerde paren.
Scorer opnieuw draaien na het oplossen van data-issues; de methodologie blijft vergelijkbaar.
Bronmateriaal
Casemapnaam:
20260328 (repository-padprefix: test-transcripts/20260328/).- Originele video (audiobron): Voeg de canonieke URL toe van dezelfde video waarvan de ondertitels als referentie dienden (bijv. YouTube-watchlink). De voor ASR verwerkte audio hoort bij deze upload.
- Referentietranscript (VTT):
test-transcripts/20260328/ref.vtt— ondertitels bij de bronvideo, opgeslagen als WebVTT voor scoring. - Modeltranscript (VTT):
test-transcripts/20260328/model.vtt— Whisper large-v3-turbo-uitvoer op die audio. - Run-metadata:
test-transcripts/20260328/other.yaml - Vooraf berekende evaluatiemetrieken:
test-transcripts/20260328/result.json
Evaluatie is geproduceerd met
scripts/evaluate-vtt-metrics.js in deze repository. Plaats de bestanden hierboven onder test-transcripts/20260328/ om de geciteerde cijfers te reproduceren.