Whisper Large v3 Turbo bij een Engelstalig interview — benchmark van 28 maart 2026 (WER, CER, RTF)

Deze notitie documenteert één vaste-configuratierun op Engelstalige interview-stijl-audio (~8,5 minuten). De scorer meldt een woordfoutpercentage rond 69%, waarbij verwijderingen het foutbudget domineren (2192 verwijderingen versus 188 substituties, 0 invoegingen). Dat patroon betekent meestal dat de hypothesetekst veel minder van de referentie afdekt dan een typische «ruisige maar volledige» transcriptie — de cijfers moeten dus diagnostisch worden gelezen, naast een handmatige check dat modeluitvoer en referentie dezelfde opname en segmentatie beschrijven.

Video en referentietekst. De geteste audio komt uit één bronvideo (link hieronder). Het referentie-WebVTT (ref.vtt) is het ondertitelspoor dat bij die video hoort — geëxporteerd of opgeslagen als WebVTT vanaf de ondertitels van het platform — geen onafhankelijk geschreven «gouden» transcript. De hypothese (model.vtt) is Whisper large-v3-turbo-ASR op dezelfde audio. De metrieken vergelijken dus door het platform geleverde ondertitels met deze ASR-run, een praktische basislijn maar niet hetzelfde als scoren tegen handmatig samengestelde onderzoekstranscripten.

1. Waarom deze benchmark telt

Interview-audio belast ASR met overlappende spraak, onregelmatig tempo, namen en cijfers — veelvoorkomend in redactioneel en onderzoekswerk. Model-id, taal, duur, tijdstempels en standaardmetrieken publiceren maakt de run vergelijkbaar met herhalingen of andere pipelines; het doel is transparantie, geen productclaim.

2. Testopstelling

Tenzij anders vermeld, komen de waarden hieronder uit other.yaml en result.json voor dit geval.

Veld	Waarde
Datum (verwerkingsvenster)	2026-03-28 (zie `processtime-at` / `completed-at` in `other.yaml`)
Scenario	Engelstalige interview-stijl (taal-tag: English)
Whisper-model	large-v3-turbo (`whisper-model` in `other.yaml`)
Audioduur (YAML)	08:25 (label 8 min 25 s realtime)
Audioduur (scorer)	506.88 s (uit referentie-VTT-cue-span in `result.json`)
Realtime-verwerkingsinterval	`processtime-at`: 2026-03-28 09:56:40.204 → `completed-at`: 2026-03-28 09:57:57.000
Afgeleide STT-verwerkingstijd	≈ 76.8 s (verschil tussen de twee tijdstempels hierboven; niet opgeslagen in `result.json` omdat deze run expliciete VTT-modus zonder YAML bij scorer-uitvoer gebruikte)
Afgeleide RTF	≈ 0.151 (verwerkingstijd ÷ 506.88 s audioduur)

Opmerking: result.json bevat "yamlMeta": null voor deze expliciete twee-bestanden-run; RTF daar is null. Verwerkingstijd en RTF in dit artikel zijn herrekend uit other.yaml voor consistentie met de methodologie-sectie.

3. Evaluatiemethodologie

Referentie en hypothese zijn WebVTT-bestanden. Platte tekst wordt uit cues gehaald (tijdstempels en indexen gestript), daarna genormaliseerd (hoofd-/kleine letters, interpunctie en eenvoudige typografie) vóór scoring.

Woordniveau-alignering

Referentie en hypothese worden als tokenreeksen uitgelijnd. Een standaard Levenshtein-achtig dynamisch programma vindt een pad met minimale kosten tussen de twee woordsequenties; backtracking levert tellingen voor substituties (S), verwijderingen (D) en invoegingen (I) ten opzichte van de referentielengte N.

Word Error Rate (WER) en nauwkeurigheid

Laat (S), (D) en (I) substitutie-, verwijderings- en invoegtellingen zijn, en (N) het aantal referentiewoorden.

[ \mathrm{WER} = \frac{S + D + I}{N}, \qquad \mathrm{Accuracy} = 1 - \mathrm{WER}. ]

Character Error Rate (CER)

Whitespace wordt uit de genormaliseerde strings verwijderd. Tekenbewerkingsafstand is de Levenshtein-afstand op tekenniveau; referentietekentelling is de lengte van de referentiestring zonder spaties.

[ \mathrm{CER} = \frac{\text{Character edit distance}}{\text{Reference character count}}. ]

Real-Time Factor (RTF)

[ \mathrm{RTF} = \frac{\text{Processing time (seconds)}}{\text{Audio duration (seconds)}}. ]

RTF onder 1 betekent dat decoderen sneller was dan realtime op deze hardware/run.

4. Modeloverzicht

Whisper large-v3-turbo hoort bij de «large»-familie en ruilt wat rekenwerk voor doorvoer ten opzichte van volledige large-checkpoints (exact gedrag hangt af van implementatie en hardware). Het is algemeen meertalig ASR geschikt voor concepten en zoekindexering waar geen perfecte getrouwheid wordt aangenomen. Deze run test één configuratie uit other.yaml; geen sweep van temperatuur, chunking of VAD.

5. Resultaten (uit `result.json`)

Exacte waarden uit het vooraf berekende metriekobject:

Referentiewoordtelling (N): 3442
Substituties (S): 188
Verwijderingen (D): 2192
Invoegingen (I): 0
WER: 0.6914584543869843
Nauwkeurigheid: 0.3085415456130157
Referentietekentelling: 15790
Tekenbewerkingsafstand: 10494
CER: 0.664597846738442
Audioduur (seconden): 506.88
STT-verwerkingstijd (in JSON): null (zie sectie 2 voor YAML-afgeleide duur)
RTF (in JSON): null (afgeleide RTF ≈ 0.151 met YAML-tijdstempels)
Runtime evaluatiescript: 3.11 s

Afgerond voor leesbaarheid

WER ≈ 69.1%; nauwkeurigheid ≈ 30.9%
CER ≈ 66.5%
~10.5k tekenbewerkingen op ~15.8k referentietekens
RTF ≈ 0.15× (sneller dan realtime op deze clip, met YAML-afgeleide verwerkingstijd)

6. Foutpatroonanalyse

Met I = 0 voegt de hypothese geen spuriële woorden toe ten opzichte van deze alignering; bijna alle woordfoutmassa zit in verwijderingen en substituties, en verwijderingen zijn een orde van grootte groter dan substituties (2192 vs 188).

Praktische interpretatie:

Verwijderingsrijke profielen duiden vaak op ontbrekende segmenten in de hypothese (stilte-afhandeling, vroege stop, andere cliplengte, of referentie langer dan de daadwerkelijk getranscribeerde audio).
Nul invoegingen komt zelden voor in rommelige praktijk-ASR; samen met extreem WER is dat een signaal om dataparing te verifiëren (zelfde bestand, taal, referentie-editie) vóór je de score alleen aan «modelkwaliteit» toeschrijft.

CER ~66% past bij lange tekstpassages die niet tussen referentie en hypothese matchen — niet alleen af en toe woordwissels.

7. Kerninzichten

Snelheid: Afgeleide RTF ≈ 0.15 suggereert dat de stack in een fractie van realtime klaar was voor deze clip — nuttig waar latentie telt, los van ruwe WER.
Nauwkeurigheid: ~69% WER is niet voldoende voor publiceerbare citaten of juridisch niveau-transcripten zonder zware menselijke review.
Foutvorm: Verwijderingen domineren; onderzoek eerst dekking en segmentuitlijning vóór het tunen van decode-hyperparameters.
Enkele steekproef: Eén interview en één modelconfiguratie definiëren niet de verwachte productieprestatie over accenten, codecs of ruis.
Reproduceerbaarheid: Alle vier artefacten samen bewaren behoudt een bevroren momentopname.

8. Beste model voor dit scenario

Alleen voor deze clip en deze referentie is Whisper large-v3-turbo een gedocumenteerde basislijn: tijdstempels beschrijven doorvoer; WER/CER beschrijven mismatch ten opzichte van uw referentie. Er wordt niet beweerd dat dit het beste model is voor alle Engelstalige interviews.

9. Neutraal eindoordeel

Voor conceptnotities, interne zoekfunctie of grove indexering waar fouten acceptabel zijn en snelheid telt, kunnen lage RTF en een opgeslagen transcript nog bruikbaar zijn met duidelijke disclaimers.

Voor citeren van deelnemers, compliance-gevoelige workflows of archiefpublicatie impliceren de ~31% woordnauwkeurigheid van deze run en het verwijderingsrijke foutprofiel dat menselijke proeflezing of een andere vastlegging/referentie-alignering moet worden aangenomen tot scores verbeteren op gevalideerde paren.

Scorer opnieuw draaien na het oplossen van data-issues; de methodologie blijft vergelijkbaar.

Bronmateriaal

Casemapnaam: 20260328 (repository-padprefix: test-transcripts/20260328/).

Originele video (audiobron): Voeg de canonieke URL toe van dezelfde video waarvan de ondertitels als referentie dienden (bijv. YouTube-watchlink). De voor ASR verwerkte audio hoort bij deze upload.
Referentietranscript (VTT): test-transcripts/20260328/ref.vtt — ondertitels bij de bronvideo, opgeslagen als WebVTT voor scoring.
Modeltranscript (VTT): test-transcripts/20260328/model.vtt — Whisper large-v3-turbo-uitvoer op die audio.
Run-metadata: test-transcripts/20260328/other.yaml
Vooraf berekende evaluatiemetrieken: test-transcripts/20260328/result.json

Evaluatie is geproduceerd met scripts/evaluate-vtt-metrics.js in deze repository. Plaats de bestanden hierboven onder test-transcripts/20260328/ om de geciteerde cijfers te reproduceren.

Whisper Large v3 Turbo bij een Engelstalig interview — benchmark van 28 maart 2026 (WER, CER, RTF)

1. Waarom deze benchmark telt

2. Testopstelling

3. Evaluatiemethodologie

4. Modeloverzicht

5. Resultaten (uit `result.json`)

6. Foutpatroonanalyse

7. Kerninzichten

8. Beste model voor dit scenario

9. Neutraal eindoordeel

Bronmateriaal

Gerelateerde berichten

Whisper Medium op Engelstalige YouTube-audio — Benchmark 2026-03-31 (WER, CER, RTF)

Whisper Medium op Engelstalige YouTube-audio — Benchmark 2026-03-30 (WER, CER, RTF)

Whisper Large v3 Turbo op Engelstalige YouTube-audio — benchmark van 29 maart 2026 (WER, CER, RTF)

Probeer het nu gratis

Whisper Large v3 Turbo bij een Engelstalig interview — benchmark van 28 maart 2026 (WER, CER, RTF)

1. Waarom deze benchmark telt

2. Testopstelling

3. Evaluatiemethodologie

4. Modeloverzicht

5. Resultaten (uit result.json)

6. Foutpatroonanalyse

7. Kerninzichten

8. Beste model voor dit scenario

9. Neutraal eindoordeel

Bronmateriaal

Gerelateerde berichten

Whisper Medium op Engelstalige YouTube-audio — Benchmark 2026-03-31 (WER, CER, RTF)

Whisper Medium op Engelstalige YouTube-audio — Benchmark 2026-03-30 (WER, CER, RTF)

Whisper Large v3 Turbo op Engelstalige YouTube-audio — benchmark van 29 maart 2026 (WER, CER, RTF)

Probeer het nu gratis

5. Resultaten (uit `result.json`)