Whisper Large v3 Turbo op Engelstalige YouTube-audio — benchmark van 29 maart 2026 (WER, CER, RTF)

Whisper Large v3 Turbo op Engelstalige YouTube-audio — benchmark van 29 maart 2026 (WER, CER, RTF)

2026-03-29Test
Eric King

Eric King

Author


Deze notitie beschrijft één run met vaste configuratie op Engelstalige audio van ongeveer 18 minuten uit een YouTube-upload. De scorer meldt WER ≈ 67,6% met dominante verwijderingen (6 449 versus 60 substituties, 0 invoegingen). Dat profiel suggereert dat het hypothesetranscript slecht in dekking aansluit op de referentie — vaak te zien wanneer de referentie het platform-ondertitelspoor is en de ASR-uitvoer een andere segmentatie of lengte weerspiegelt — de cijfers moeten dus diagnostisch worden gelezen, niet als een op zichzelf staande, gepolijste “nauwkeurigheidsscore”.
Video en referentietekst. De referentie-WebVTT (ref.vtt) is de ondertiteltekst die bij de bronvideo wordt geleverd (geëxporteerd als WebVTT). De hypothese (model.vtt) is Whisper large-v3-turbo op dezelfde onderliggende audio. De metrieken vergelijken die ondertitels met deze ASR-run — een praktische basislijn voor “hoe dicht komt onze pipeline bij wat YouTube als ondertitels uitrolt”, geen claim over menselijk geverifieerde ground truth.

1. Waarom deze benchmark ertoe doet

YouTube-achtige spraak zit overal in echte workflows: wisselende mic-kwaliteit, muziekbedden, sneden en lange monologen of dialogen. ASR evalueren met echte platform-ondertitels als referentie beantwoordt een concrete vraag: als we onze eigen Whisper-stack op dezelfde audio draaien, hoe ver drift de tekst af van wat kijkers al als ondertitels zien? Dat is nuttig voor ondertitel-QA, hergebruik van content en zoekindexering — domeinen waar “goed genoeg” van het product afhangt, maar de cijfers reproduceerbaar moeten zijn.

2. Testopzet

De waarden hieronder komen uit other.yaml en result.json voor dit geval (mapmodus zodat YAML-metadata aan de scorer-uitvoer wordt gekoppeld).
FieldValue
SourceYouTube video (audio aligned to that upload)
Date (processing window)2026-03-29 (processtime-atcompleted-at in other.yaml)
LanguageEnglish
Whisper modellarge-v3-turbo
Audio duration (YAML label)17:39
Audio duration (scorer, from VTT)1059.88 s (≈ 17.7 minutes)
STT processing time175 s (sttProcessingTimeSeconds in result.json, from YAML timestamps)
RTF0.165 (from result.json)
Wall-clock-interval in YAML: 2026-03-29 16:04:372026-03-29 16:07:32 (consistent met 175 s verwerkingstijd).

3. Evaluatiemethodiek

Referentie en hypothese zijn WebVTT-bestanden. Cue-tekst wordt geëxtraheerd en daarna genormaliseerd (hoofd-/kleine letters, interpunctie, lichte opschoning) vóór scoring.
Woordniveau-alignering
Tokensequenties worden uitgelijnd met een Levenshtein-achtig dynamisch programma; backtracking levert substituties (S), verwijderingen (D) en invoegingen (I) ten opzichte van referentielengte N.
[ \mathrm{WER} = \frac{S + D + I}{N}, \qquad \mathrm{Accuracy} = 1 - \mathrm{WER}. ]
Character Error Rate (CER)
Whitespace wordt verwijderd; de teken-editafstand is de Levenshtein-afstand op tekenniveau.
[ \mathrm{CER} = \frac{\text{Character edit distance}}{\text{Reference character count (no spaces)}}. ]
Real-Time Factor (RTF)
[ \mathrm{RTF} = \frac{\text{STT processing time}}{\text{Audio duration}}. ]
RTF onder 1 betekent in deze run sneller decoderen dan realtime.

4. Modeloverzicht

Whisper large-v3-turbo richt zich op sterke kwaliteit met betere doorvoer vergeleken met zwaardere “large”-varianten (gedrag hangt af van implementatie en hardware). Het is algemeen meertalig ASR, geschikt voor concepttranscripten, zoeken en ondertitelconcepten waar letterlijke perfectie niet wordt verondersteld. Deze benchmark gebruikt één decode-configuratie vastgelegd in other.yaml; er is geen sweep over decode-opties, VAD of nabewerking.

5. Resultaten (uit result.json)

Exacte metrieken:
  • Referentie woordtelling (N): 9627
  • Substituties (S): 60
  • Verwijderingen (D): 6449
  • Invoegingen (I): 0
  • WER: 0.6761192479484782
  • Nauwkeurigheid: 0.3238807520515218
  • Referentie tekentelling: 38334
  • Teken-editafstand: 25696
  • CER: 0.6703187770647467
  • Audiolengte (seconden): 1059.8809999999999
  • STT-verwerkingstijd (seconden): 175
  • RTF: 0.16511287587946197
  • Runtime evaluatiescript (seconden): 25.612
Afgerond voor leesbaarheid
  • WER ≈ 67,6%; nauwkeurigheid ≈ 32,4%
  • CER ≈ 67,0%
  • ~25,7k tekenedits op ~38,3k referentietekens
  • RTF ≈ 0,165× (ongeveer sneller dan realtime)

6. Foutpatroonanalyse

Invoegingen zijn nul en verwijderingen domineren substituties (6449 vs 60). Dat is niet het gebruikelijke profiel van “ruis-ASR met extra stopwoordjes”; het wijst op grote stukken referentietekst die niet matchen met de hypothese onder deze alignering — passend bij lengtemismatch, andere segmentatie of referentie die meer inhoud beslaat dan de ASR hoorde (bijv. ondertitelbestand vs audiosegment). CER ≈ 67% versterkt dat de kloof breed is, geen handvol woordwissels.
Voor productteams: niet dit lezen als “Whisper hoorde 68% van de woorden verkeerd” in de spreektaalzin tot je hetzelfde audiovenster, dezelfde taal en vergelijkbare tekstnormalisatie tussen ondertitexport en modeluitvoer hebt bevestigd.

7. Kerninzichten

  • Snelheid: RTF ≈ 0,17 is aantrekkelijk voor batchverwerking van lange clips.
  • Nauwkeurigheid: ~68% WER is niet publicatieklaar zonder review als je getrouwe citaten nodig hebt.
  • Foutvorm: Verwijderingszwaar, nul invoegingen — controleer koppeling en dekking voordat je modelknoppen draait.
  • Scenario-realiteit: ~18 minuten doorlopend Engels uit een echte YouTube-bron is representatiever dan speelgoedclips, maar nog steeds één video en één modelinstelling.
  • Referentiekeuze: platform-ondertitels verankeren de test aan een voor de kijker zichtbare basislijn, die kan verschillen van een menselijke hertranscriptie.

8. Beste model voor dit scenario

Binnen het smalle kader “large-v3-turbo op deze clip, met YouTube-ondertitels als referentie” is de run een gedocumenteerde basislijn: die legt doorvoer (RTF) en kwantitatieve mismatch (WER/CER) vast voor latere vergelijking. Het is geen claim dat dit het beste model is voor alle Engelstalige YouTube-content.

9. Neutraal eindoordeel

Voor interne concepten, topic-tagging of ruwe zoekfuncties kan lage RTF deze stack bruikbaar maken als belanghebbenden foutpercentages accepteren en kritieke passages valideren.
Voor letterlijke citaten, compliance of toegankelijkheidskritische ondertitels betekenen ~32% woordnauwkeurigheid en verwijderingszware fouten dat menselijke review of aligneringsfixes verplicht blijven. Voer de scorer opnieuw uit na elke wijziging van invoeren; de methodiek blijft vergelijkbaar.

Bronmateriaal

Casemapnaam {case-name} = 20260329 (spiegel onder test-transcripts/ in de repo wanneer u assets publiceert).
  • Originele video (audiobron): https://www.youtube.com/watch?v=E73XCmLAFe8 — de referentie-ondertitels zijn de bij deze video geleverde ondertitels (geëxporteerd als ref.vtt).
  • Referentietranscript (VTT): test-transcripts/{case-name}/ref.vtt
  • Modeltranscript (VTT): test-transcripts/{case-name}/model.vtt
  • Run-metadata: test-transcripts/{case-name}/other.yaml
  • Voorberekende evaluatiemetrieken: test-transcripts/{case-name}/result.json
Scoring gebruikt scripts/evaluate-vtt-metrics.js in deze repository. Voor lange transcripties Node indien nodig met verhoogde heap-limiet draaien (bijv. NODE_OPTIONS=--max-old-space-size=8192).

Probeer het nu gratis

Probeer nu onze AI‑oplossing voor spraak, audio en video. Je profiteert niet alleen van zeer nauwkeurige spraak‑naar‑tekst‑transcriptie, meertalige vertaling en slimme sprekerherkenning, maar ook van automatische ondertitelgeneratie voor video, intelligente audio‑ en videobewerking en gesynchroniseerde audio‑visuele analyse. Het dekt alle scenario’s: vergaderverslagen, short‑video creatie, podcastproductie en meer. Start vandaag nog je gratis proefperiode!

Geluid naar Tekst OnlineGeluid naar Tekst GratisGeluid naar Tekst ConverterGeluid naar Tekst MP3Geluid naar Tekst WAVGeluid naar Tekst met TijdstempelsSpraak naar tekst voor vergaderingenSound to Text Multi LanguageGeluid naar Tekst OndertitelsWAV naar tekst converterenStem naar TekstStem naar Tekst OnlineSpraak naar TekstMP3 naar Tekst ConverterenSpraakopname naar tekst converterenOnline SpraaktypenStem naar Tekst met TijdstempelsStem naar Tekst in RealtimeStem naar Tekst voor Lange AudioStem naar Tekst voor VideoSpraak naar Tekst voor YouTubeSpraak naar Tekst voor VideobewerkingSpraak naar Tekst voor OndertitelsSpraak naar Tekst voor PodcastsSpraak naar Tekst voor InterviewsInterview Audio naar TekstSpraak naar Tekst voor OpnamesSpraak naar Tekst voor VergaderingenSpraak naar Tekst voor CollegesSpraak naar Tekst voor NotitiesStem naar Tekst MeertaligStem naar Tekst NauwkeurigStem naar Tekst SnelPremiere Pro Stem naar Tekst AlternatiefDaVinci Stem naar Tekst AlternatiefVEED Stem naar Tekst AlternatiefInVideo Stem naar Tekst AlternatiefOtter.ai Stem naar Tekst AlternatiefDescript Stem naar Tekst AlternatiefTrint Stem naar Tekst AlternatiefRev Stem naar Tekst AlternatiefSonix Stem naar Tekst AlternatiefHappy Scribe Stem naar Tekst AlternatiefZoom Stem naar Tekst AlternatiefGoogle Meet Stem naar Tekst AlternatiefMicrosoft Teams Stem naar Tekst AlternatiefFireflies.ai Stem naar Tekst AlternatiefFathom Stem naar Tekst AlternatiefFlexClip Stem naar Tekst AlternatiefKapwing Stem naar Tekst AlternatiefCanva Stem naar Tekst AlternatiefSpraak naar Tekst voor Lange AudioAI Spraak naar TekstGratis Spraak naar TekstSpraak naar Tekst zonder ReclameSpraak naar Tekst voor Lawaaierige AudioSpraak naar Tekst met TijdOndertitels Genereren uit AudioPodcast Transcriptie OnlineKlantgesprekken TranscriberenTikTok Stem naar TekstTikTok Audio naar TekstYouTube Spraak naar TekstYouTube Audio naar TekstSpraakmemo naar TekstWhatsApp Spraakbericht naar TekstTelegram Spraakbericht naar TekstDiscord Oproep TranscriptieTwitch Spraak naar TekstSkype Spraak naar TekstMessenger Spraak naar TekstLINE Spraakbericht naar TekstVlogs naar Tekst TranscribenSermoen Audio naar Tekst ConverterenSpraak naar Schrijven ConverterenAudio naar Tekst VertalenAudio Notities naar Tekst ConverterenSpraak TypenSpraak Typen voor VergaderingenSpraak Typen voor YouTubeSpreek om te TypenHandenvrij TypenStem naar WoordenSpraak naar WoordenSpraak naar Tekst OnlineOnline Transcription SoftwareSpraak naar Tekst voor VergaderingenSnelle Spraak naar TekstReal Time Speech to TextLive Transcription AppSpraak naar Tekst voor TikTokGeluid naar Tekst voor TikTokPraten naar WoordenSpraak naar TekstTalk to Text FreeTalk to Text OnlineTalk to Text for YouTubeTalk to Text for SubtitlesTalk to Text for Content CreatorsTalk to Text for MeetingsAudio naar TypenGeluid naar TekstSpraak SchrijftoolSpraak SchrijftoolSpraakdicteeJuridische Transcriptie ToolMedische Dictatie ToolJapanse Audio TranscriptieKoreaanse Meeting TranscriptieMeeting Transcriptie ToolMeeting Audio naar TekstCollege naar Tekst ConverterCollege Audio naar TekstVideo naar Tekst TranscriptieOndertitel Generator voor TikTokCallcenter TranscriptieReels Audio naar Tekst ToolMP3 naar Tekst TranscriberenWAV-bestand naar tekst transcriberenCapCut Spraak naar TekstCapCut Spraak naar TekstVoice to Text in EnglishAudio naar Tekst EngelsVoice to Text in SpanishVoice to Text in FrenchAudio naar Tekst FransVoice to Text in GermanAudio naar Tekst DuitsVoice to Text in JapaneseAudio naar Tekst JapansVoice to Text in KoreanAudio naar Tekst KoreaansVoice to Text in PortugueseVoice to Text in ArabicVoice to Text in ChineseVoice to Text in HindiVoice to Text in RussianWeb Voice Typing ToolVoice Typing Website