
Whisper Large v3 Turbo op Engelstalige YouTube-audio — benchmark van 29 maart 2026 (WER, CER, RTF)
2026-03-29Test
Eric King
Author
Deze notitie beschrijft één run met vaste configuratie op Engelstalige audio van ongeveer 18 minuten uit een YouTube-upload. De scorer meldt WER ≈ 67,6% met dominante verwijderingen (6 449 versus 60 substituties, 0 invoegingen). Dat profiel suggereert dat het hypothesetranscript slecht in dekking aansluit op de referentie — vaak te zien wanneer de referentie het platform-ondertitelspoor is en de ASR-uitvoer een andere segmentatie of lengte weerspiegelt — de cijfers moeten dus diagnostisch worden gelezen, niet als een op zichzelf staande, gepolijste “nauwkeurigheidsscore”.
Video en referentietekst. De referentie-WebVTT (
ref.vtt) is de ondertiteltekst die bij de bronvideo wordt geleverd (geëxporteerd als WebVTT). De hypothese (model.vtt) is Whisper large-v3-turbo op dezelfde onderliggende audio. De metrieken vergelijken die ondertitels met deze ASR-run — een praktische basislijn voor “hoe dicht komt onze pipeline bij wat YouTube als ondertitels uitrolt”, geen claim over menselijk geverifieerde ground truth.1. Waarom deze benchmark ertoe doet
YouTube-achtige spraak zit overal in echte workflows: wisselende mic-kwaliteit, muziekbedden, sneden en lange monologen of dialogen. ASR evalueren met echte platform-ondertitels als referentie beantwoordt een concrete vraag: als we onze eigen Whisper-stack op dezelfde audio draaien, hoe ver drift de tekst af van wat kijkers al als ondertitels zien? Dat is nuttig voor ondertitel-QA, hergebruik van content en zoekindexering — domeinen waar “goed genoeg” van het product afhangt, maar de cijfers reproduceerbaar moeten zijn.
2. Testopzet
De waarden hieronder komen uit
other.yaml en result.json voor dit geval (mapmodus zodat YAML-metadata aan de scorer-uitvoer wordt gekoppeld).| Field | Value |
|---|---|
| Source | YouTube video (audio aligned to that upload) |
| Date (processing window) | 2026-03-29 (processtime-at → completed-at in other.yaml) |
| Language | English |
| Whisper model | large-v3-turbo |
| Audio duration (YAML label) | 17:39 |
| Audio duration (scorer, from VTT) | 1059.88 s (≈ 17.7 minutes) |
| STT processing time | 175 s (sttProcessingTimeSeconds in result.json, from YAML timestamps) |
| RTF | 0.165 (from result.json) |
Wall-clock-interval in YAML: 2026-03-29 16:04:37 → 2026-03-29 16:07:32 (consistent met 175 s verwerkingstijd).
3. Evaluatiemethodiek
Referentie en hypothese zijn WebVTT-bestanden. Cue-tekst wordt geëxtraheerd en daarna genormaliseerd (hoofd-/kleine letters, interpunctie, lichte opschoning) vóór scoring.
Woordniveau-alignering
Tokensequenties worden uitgelijnd met een Levenshtein-achtig dynamisch programma; backtracking levert substituties (S), verwijderingen (D) en invoegingen (I) ten opzichte van referentielengte N.
[
\mathrm{WER} = \frac{S + D + I}{N}, \qquad \mathrm{Accuracy} = 1 - \mathrm{WER}.
]
Character Error Rate (CER)
Whitespace wordt verwijderd; de teken-editafstand is de Levenshtein-afstand op tekenniveau.
[
\mathrm{CER} = \frac{\text{Character edit distance}}{\text{Reference character count (no spaces)}}.
]
Real-Time Factor (RTF)
[
\mathrm{RTF} = \frac{\text{STT processing time}}{\text{Audio duration}}.
]
RTF onder 1 betekent in deze run sneller decoderen dan realtime.
4. Modeloverzicht
Whisper large-v3-turbo richt zich op sterke kwaliteit met betere doorvoer vergeleken met zwaardere “large”-varianten (gedrag hangt af van implementatie en hardware). Het is algemeen meertalig ASR, geschikt voor concepttranscripten, zoeken en ondertitelconcepten waar letterlijke perfectie niet wordt verondersteld. Deze benchmark gebruikt één decode-configuratie vastgelegd in
other.yaml; er is geen sweep over decode-opties, VAD of nabewerking.5. Resultaten (uit result.json)
Exacte metrieken:
- Referentie woordtelling (N): 9627
- Substituties (S): 60
- Verwijderingen (D): 6449
- Invoegingen (I): 0
- WER: 0.6761192479484782
- Nauwkeurigheid: 0.3238807520515218
- Referentie tekentelling: 38334
- Teken-editafstand: 25696
- CER: 0.6703187770647467
- Audiolengte (seconden): 1059.8809999999999
- STT-verwerkingstijd (seconden): 175
- RTF: 0.16511287587946197
- Runtime evaluatiescript (seconden): 25.612
Afgerond voor leesbaarheid
- WER ≈ 67,6%; nauwkeurigheid ≈ 32,4%
- CER ≈ 67,0%
- ~25,7k tekenedits op ~38,3k referentietekens
- RTF ≈ 0,165× (ongeveer 6× sneller dan realtime)
6. Foutpatroonanalyse
Invoegingen zijn nul en verwijderingen domineren substituties (6449 vs 60). Dat is niet het gebruikelijke profiel van “ruis-ASR met extra stopwoordjes”; het wijst op grote stukken referentietekst die niet matchen met de hypothese onder deze alignering — passend bij lengtemismatch, andere segmentatie of referentie die meer inhoud beslaat dan de ASR hoorde (bijv. ondertitelbestand vs audiosegment). CER ≈ 67% versterkt dat de kloof breed is, geen handvol woordwissels.
Voor productteams: niet dit lezen als “Whisper hoorde 68% van de woorden verkeerd” in de spreektaalzin tot je hetzelfde audiovenster, dezelfde taal en vergelijkbare tekstnormalisatie tussen ondertitexport en modeluitvoer hebt bevestigd.
7. Kerninzichten
- Snelheid: RTF ≈ 0,17 is aantrekkelijk voor batchverwerking van lange clips.
- Nauwkeurigheid: ~68% WER is niet publicatieklaar zonder review als je getrouwe citaten nodig hebt.
- Foutvorm: Verwijderingszwaar, nul invoegingen — controleer koppeling en dekking voordat je modelknoppen draait.
- Scenario-realiteit: ~18 minuten doorlopend Engels uit een echte YouTube-bron is representatiever dan speelgoedclips, maar nog steeds één video en één modelinstelling.
- Referentiekeuze: platform-ondertitels verankeren de test aan een voor de kijker zichtbare basislijn, die kan verschillen van een menselijke hertranscriptie.
8. Beste model voor dit scenario
Binnen het smalle kader “large-v3-turbo op deze clip, met YouTube-ondertitels als referentie” is de run een gedocumenteerde basislijn: die legt doorvoer (RTF) en kwantitatieve mismatch (WER/CER) vast voor latere vergelijking. Het is geen claim dat dit het beste model is voor alle Engelstalige YouTube-content.
9. Neutraal eindoordeel
Voor interne concepten, topic-tagging of ruwe zoekfuncties kan lage RTF deze stack bruikbaar maken als belanghebbenden foutpercentages accepteren en kritieke passages valideren.
Voor letterlijke citaten, compliance of toegankelijkheidskritische ondertitels betekenen ~32% woordnauwkeurigheid en verwijderingszware fouten dat menselijke review of aligneringsfixes verplicht blijven. Voer de scorer opnieuw uit na elke wijziging van invoeren; de methodiek blijft vergelijkbaar.
Bronmateriaal
Casemapnaam
{case-name} = 20260329 (spiegel onder test-transcripts/ in de repo wanneer u assets publiceert).- Originele video (audiobron): https://www.youtube.com/watch?v=E73XCmLAFe8 — de referentie-ondertitels zijn de bij deze video geleverde ondertitels (geëxporteerd als
ref.vtt). - Referentietranscript (VTT):
test-transcripts/{case-name}/ref.vtt - Modeltranscript (VTT):
test-transcripts/{case-name}/model.vtt - Run-metadata:
test-transcripts/{case-name}/other.yaml - Voorberekende evaluatiemetrieken:
test-transcripts/{case-name}/result.json
Scoring gebruikt
scripts/evaluate-vtt-metrics.js in deze repository. Voor lange transcripties Node indien nodig met verhoogde heap-limiet draaien (bijv. NODE_OPTIONS=--max-old-space-size=8192).