Whisper Large v3 Turbo op Engelstalige YouTube-audio — benchmark van 29 maart 2026 (WER, CER, RTF)

Deze notitie beschrijft één run met vaste configuratie op Engelstalige audio van ongeveer 18 minuten uit een YouTube-upload. De scorer meldt WER ≈ 67,6% met dominante verwijderingen (6 449 versus 60 substituties, 0 invoegingen). Dat profiel suggereert dat het hypothesetranscript slecht in dekking aansluit op de referentie — vaak te zien wanneer de referentie het platform-ondertitelspoor is en de ASR-uitvoer een andere segmentatie of lengte weerspiegelt — de cijfers moeten dus diagnostisch worden gelezen, niet als een op zichzelf staande, gepolijste “nauwkeurigheidsscore”.

Video en referentietekst. De referentie-WebVTT (ref.vtt) is de ondertiteltekst die bij de bronvideo wordt geleverd (geëxporteerd als WebVTT). De hypothese (model.vtt) is Whisper large-v3-turbo op dezelfde onderliggende audio. De metrieken vergelijken die ondertitels met deze ASR-run — een praktische basislijn voor “hoe dicht komt onze pipeline bij wat YouTube als ondertitels uitrolt”, geen claim over menselijk geverifieerde ground truth.

1. Waarom deze benchmark ertoe doet

YouTube-achtige spraak zit overal in echte workflows: wisselende mic-kwaliteit, muziekbedden, sneden en lange monologen of dialogen. ASR evalueren met echte platform-ondertitels als referentie beantwoordt een concrete vraag: als we onze eigen Whisper-stack op dezelfde audio draaien, hoe ver drift de tekst af van wat kijkers al als ondertitels zien? Dat is nuttig voor ondertitel-QA, hergebruik van content en zoekindexering — domeinen waar “goed genoeg” van het product afhangt, maar de cijfers reproduceerbaar moeten zijn.

2. Testopzet

De waarden hieronder komen uit other.yaml en result.json voor dit geval (mapmodus zodat YAML-metadata aan de scorer-uitvoer wordt gekoppeld).

Field	Value
Source	YouTube video (audio aligned to that upload)
Date (processing window)	2026-03-29 (`processtime-at` → `completed-at` in `other.yaml`)
Language	English
Whisper model	large-v3-turbo
Audio duration (YAML label)	17:39
Audio duration (scorer, from VTT)	1059.88 s (≈ 17.7 minutes)
STT processing time	175 s (`sttProcessingTimeSeconds` in `result.json`, from YAML timestamps)
RTF	0.165 (from `result.json`)

Wall-clock-interval in YAML: 2026-03-29 16:04:37 → 2026-03-29 16:07:32 (consistent met 175 s verwerkingstijd).

3. Evaluatiemethodiek

Referentie en hypothese zijn WebVTT-bestanden. Cue-tekst wordt geëxtraheerd en daarna genormaliseerd (hoofd-/kleine letters, interpunctie, lichte opschoning) vóór scoring.

Woordniveau-alignering

Tokensequenties worden uitgelijnd met een Levenshtein-achtig dynamisch programma; backtracking levert substituties (S), verwijderingen (D) en invoegingen (I) ten opzichte van referentielengte N.

[ \mathrm{WER} = \frac{S + D + I}{N}, \qquad \mathrm{Accuracy} = 1 - \mathrm{WER}. ]

Character Error Rate (CER)

Whitespace wordt verwijderd; de teken-editafstand is de Levenshtein-afstand op tekenniveau.

[ \mathrm{CER} = \frac{\text{Character edit distance}}{\text{Reference character count (no spaces)}}. ]

Real-Time Factor (RTF)

[ \mathrm{RTF} = \frac{\text{STT processing time}}{\text{Audio duration}}. ]

RTF onder 1 betekent in deze run sneller decoderen dan realtime.

4. Modeloverzicht

Whisper large-v3-turbo richt zich op sterke kwaliteit met betere doorvoer vergeleken met zwaardere “large”-varianten (gedrag hangt af van implementatie en hardware). Het is algemeen meertalig ASR, geschikt voor concepttranscripten, zoeken en ondertitelconcepten waar letterlijke perfectie niet wordt verondersteld. Deze benchmark gebruikt één decode-configuratie vastgelegd in other.yaml; er is geen sweep over decode-opties, VAD of nabewerking.

5. Resultaten (uit `result.json`)

Exacte metrieken:

Referentie woordtelling (N): 9627
Substituties (S): 60
Verwijderingen (D): 6449
Invoegingen (I): 0
WER: 0.6761192479484782
Nauwkeurigheid: 0.3238807520515218
Referentie tekentelling: 38334
Teken-editafstand: 25696
CER: 0.6703187770647467
Audiolengte (seconden): 1059.8809999999999
STT-verwerkingstijd (seconden): 175
RTF: 0.16511287587946197
Runtime evaluatiescript (seconden): 25.612

Afgerond voor leesbaarheid

WER ≈ 67,6%; nauwkeurigheid ≈ 32,4%
CER ≈ 67,0%
~25,7k tekenedits op ~38,3k referentietekens
RTF ≈ 0,165× (ongeveer 6× sneller dan realtime)

6. Foutpatroonanalyse

Invoegingen zijn nul en verwijderingen domineren substituties (6449 vs 60). Dat is niet het gebruikelijke profiel van “ruis-ASR met extra stopwoordjes”; het wijst op grote stukken referentietekst die niet matchen met de hypothese onder deze alignering — passend bij lengtemismatch, andere segmentatie of referentie die meer inhoud beslaat dan de ASR hoorde (bijv. ondertitelbestand vs audiosegment). CER ≈ 67% versterkt dat de kloof breed is, geen handvol woordwissels.

Voor productteams: niet dit lezen als “Whisper hoorde 68% van de woorden verkeerd” in de spreektaalzin tot je hetzelfde audiovenster, dezelfde taal en vergelijkbare tekstnormalisatie tussen ondertitexport en modeluitvoer hebt bevestigd.

7. Kerninzichten

Snelheid: RTF ≈ 0,17 is aantrekkelijk voor batchverwerking van lange clips.
Nauwkeurigheid: ~68% WER is niet publicatieklaar zonder review als je getrouwe citaten nodig hebt.
Foutvorm: Verwijderingszwaar, nul invoegingen — controleer koppeling en dekking voordat je modelknoppen draait.
Scenario-realiteit: ~18 minuten doorlopend Engels uit een echte YouTube-bron is representatiever dan speelgoedclips, maar nog steeds één video en één modelinstelling.
Referentiekeuze: platform-ondertitels verankeren de test aan een voor de kijker zichtbare basislijn, die kan verschillen van een menselijke hertranscriptie.

8. Beste model voor dit scenario

Binnen het smalle kader “large-v3-turbo op deze clip, met YouTube-ondertitels als referentie” is de run een gedocumenteerde basislijn: die legt doorvoer (RTF) en kwantitatieve mismatch (WER/CER) vast voor latere vergelijking. Het is geen claim dat dit het beste model is voor alle Engelstalige YouTube-content.

9. Neutraal eindoordeel

Voor interne concepten, topic-tagging of ruwe zoekfuncties kan lage RTF deze stack bruikbaar maken als belanghebbenden foutpercentages accepteren en kritieke passages valideren.

Voor letterlijke citaten, compliance of toegankelijkheidskritische ondertitels betekenen ~32% woordnauwkeurigheid en verwijderingszware fouten dat menselijke review of aligneringsfixes verplicht blijven. Voer de scorer opnieuw uit na elke wijziging van invoeren; de methodiek blijft vergelijkbaar.

Bronmateriaal

Casemapnaam {case-name} = 20260329 (spiegel onder test-transcripts/ in de repo wanneer u assets publiceert).

Originele video (audiobron): https://www.youtube.com/watch?v=E73XCmLAFe8 — de referentie-ondertitels zijn de bij deze video geleverde ondertitels (geëxporteerd als ref.vtt).
Referentietranscript (VTT): test-transcripts/{case-name}/ref.vtt
Modeltranscript (VTT): test-transcripts/{case-name}/model.vtt
Run-metadata: test-transcripts/{case-name}/other.yaml
Voorberekende evaluatiemetrieken: test-transcripts/{case-name}/result.json

Scoring gebruikt scripts/evaluate-vtt-metrics.js in deze repository. Voor lange transcripties Node indien nodig met verhoogde heap-limiet draaien (bijv. NODE_OPTIONS=--max-old-space-size=8192).

Whisper Large v3 Turbo op Engelstalige YouTube-audio — benchmark van 29 maart 2026 (WER, CER, RTF)

1. Waarom deze benchmark ertoe doet

2. Testopzet

3. Evaluatiemethodiek

4. Modeloverzicht

5. Resultaten (uit `result.json`)

6. Foutpatroonanalyse

7. Kerninzichten

8. Beste model voor dit scenario

9. Neutraal eindoordeel

Bronmateriaal

Gerelateerde berichten

Whisper Medium op Engelstalige YouTube-audio — Benchmark 2026-03-31 (WER, CER, RTF)

Whisper Medium op Engelstalige YouTube-audio — Benchmark 2026-03-30 (WER, CER, RTF)

Whisper Large v3 Turbo bij een Engelstalig interview — benchmark van 28 maart 2026 (WER, CER, RTF)

Probeer het nu gratis

Whisper Large v3 Turbo op Engelstalige YouTube-audio — benchmark van 29 maart 2026 (WER, CER, RTF)

1. Waarom deze benchmark ertoe doet

2. Testopzet

3. Evaluatiemethodiek

4. Modeloverzicht

5. Resultaten (uit result.json)

6. Foutpatroonanalyse

7. Kerninzichten

8. Beste model voor dit scenario

9. Neutraal eindoordeel

Bronmateriaal

Gerelateerde berichten

Whisper Medium op Engelstalige YouTube-audio — Benchmark 2026-03-31 (WER, CER, RTF)

Whisper Medium op Engelstalige YouTube-audio — Benchmark 2026-03-30 (WER, CER, RTF)

Whisper Large v3 Turbo bij een Engelstalig interview — benchmark van 28 maart 2026 (WER, CER, RTF)

Probeer het nu gratis

5. Resultaten (uit `result.json`)